#теория
#интересное
#лайфхаки
#мнения
#истории
#подкасты
#спецпроекты
Анастасия Бобровская, Полина Меньшова
25.02.2021
У машины нет фантазии»: как филологи и компьютеры творчески работают с текстом
Нейросети не только переводят с одного языка на другой и пишут экстравагантные романы, но и анализируют художественные тексты. Советник образовательных программ благотворительного фонда «Система» Юлия Селюкова, разработчик рекламы «Яндекс» Роберт Дрынкин и исследователь группы DraCor Дарья Максимова рассказали, насколько компьютер преисполнился в познании и какова вероятность того, что он всё-таки отберёт хлеб у филологов и лингвистов.

Искусственный интеллект научился делать многое. Его используют в разных сферах науки, в том числе в лингвистике. Машинный перевод, семантический поиск, голосовые помощники и чат-боты давно не кажутся чем-то необычным. Подобные сервисы работают с естественным языком, точнее с текстами, которые создаются с его помощью.

Всё это достижения компьютерной лингвистики, но успехи этой науки могут быть для искусственного интеллекта не только средством, но и целью. Существует множество программ, которые помогают сделать качественный филологический анализ текста.

«На вопрос "Что может проанализировать программа?" очень хочется ответить: "Да что хотите", — говорит Дарья Максимова. — Современное состояние компьютерной лингвистики и диапазон инструментов для языков программирования позволяет найти или создать программное обеспечение, которое будет делать анализ любого типа».

По её словам, чаще всего используются методы корпусной лингвистики: подсчёты частотностей, поиск коллокаций (устойчивых словосочетаний. — Прим. «Изборника»). Умение программировать даёт возможность заниматься машинным обучением и определять, к какой теме относятся те или иные документы, устанавливать авторство с помощью статистических данных и так далее.

Машинное обучение — это алгоритм, который позволяет программе самостоятельно найти решение задачи. Для этого используют данные: из них выводят закономерности и на их основе делают прогнозы.

«Допустим, нужно определить стоимость дома, — объясняет Роберт Дрынкин. — Задают функцию, которая по специальным характеристикам — например, по площади дома и по району, где он находится, — сможет предсказать цену. Удобно построить решающее дерево. Это схема, в вершине которой перечислены условия (к примеру, площадь должна быть больше десяти, Area > 10), а ниже, в "листах", появляются предсказания. Эти предсказания — результат проверки условий по таблице, где собраны уже известные данные о стоимости домов в разных районах и с разной площадью».
Нейросети не только переводят с одного языка на другой и пишут экстравагантные романы, но и анализируют художественные тексты. Советник образовательных программ благотворительного фонда «Система» Юлия Селюкова, разработчик рекламы «Яндекс» Роберт Дрынкин и исследователь группы DraCor Дарья Максимова рассказали, насколько компьютер преисполнился в познании и какова вероятность того, что он всё-таки отберёт хлеб у филологов и лингвистов.

Искусственный интеллект научился делать многое. Его используют в разных сферах науки, в том числе в лингвистике. Машинный перевод, семантический поиск, голосовые помощники и чат-боты давно не кажутся чем-то необычным. Подобные сервисы работают с естественным языком, точнее с текстами, которые создаются с его помощью.

Всё это достижения компьютерной лингвистики, но успехи этой науки могут быть для искусственного интеллекта не только средством, но и целью. Существует множество программ, которые помогают сделать качественный филологический анализ текста.

«На вопрос "Что может проанализировать программа?" очень хочется ответить: "Да что хотите", — говорит Дарья Максимова. — Современное состояние компьютерной лингвистики и диапазон инструментов для языков программирования позволяет найти или создать программное обеспечение, которое будет делать анализ любого типа».

По её словам, чаще всего используются методы корпусной лингвистики: подсчёты частотностей, поиск коллокаций (устойчивых словосочетаний. — Прим. «Изборника»). Умение программировать даёт возможность заниматься машинным обучением и определять, к какой теме относятся те или иные документы, устанавливать авторство с помощью статистических данных и так далее.

Машинное обучение — это алгоритм, который позволяет программе самостоятельно найти решение задачи. Для этого используют данные: из них выводят закономерности и на их основе делают прогнозы.

«Допустим, нужно определить стоимость дома, — объясняет Роберт Дрынкин. — Задают функцию, которая по специальным характеристикам — например, по площади дома и по району, где он находится, — сможет предсказать цену. Удобно построить решающее дерево. Это схема, в вершине которой перечислены условия (к примеру, площадь должна быть больше десяти, Area > 10), а ниже, в "листах", появляются предсказания. Эти предсказания — результат проверки условий по таблице, где собраны уже известные данные о стоимости домов в разных районах и с разной площадью».
Аналогично машина работает с текстом. Соотносит друг с другом слова разных языков, которые совпадают по значению, находит в корпусах текстов словоформы и конструкции с заданными характеристиками.

По мнению Дарьи Максимовой, главное преимущество машинных методов в величине охвата текстов:
Аналогично машина работает с текстом. Соотносит друг с другом слова разных языков, которые совпадают по значению, находит в корпусах текстов словоформы и конструкции с заданными характеристиками.

По мнению Дарьи Максимовой, главное преимущество машинных методов в величине охвата текстов:
«Сколько книг можно прочитать за свою жизнь? Наверное, пару тысяч, если читать каждый день. Google N-Gram Viewer позволяет искать вхождения слов сразу в миллионах книг»
«Сколько книг можно прочитать за свою жизнь? Наверное, пару тысяч, если читать каждый день. Google N-Gram Viewer позволяет искать вхождения слов сразу в миллионах книг»
Исследователь отмечает, что без такой возможности не появились бы многие ветви современной лингвистики, в том числе культуромика — форма вычислительной лексикологии, которая изучает поведение человека и культурные тенденции с помощью количественного анализа оцифрованных текстов.

«С другой стороны, — рассуждает Дарья, — при таком масштабе и формальном подходе нужно понимать, что мы переходим от непосредственно текста, художественного произведения с уловками и приёмами, к его модели. Степень формальности такой модели исследователь определяет сам, и подводный камень здесь в том, что если очень увлечься, то модель перестанет отображать особенности текста-первоисточника. Кроме того, ловушкой может стать несовершенство технических методов и неоднозначные результаты исследования как следствие».

Ещё один нюанс, по словам специалиста, в том, что количественные методы, как следует из названия, оперируют числами и «привязать эти числа к смыслам» иногда очень непросто. Важно быть аккуратным в своих суждениях и не делать слишком обширных выводов, что актуально не только для цифрового литературоведения.

Впрочем, цифровое литературоведение — не единственное направление исследования, которое использует лингвистический анализ текста и прибегает к помощи компьютера. Юлия Селюкова рассказывает, что существуют психологические проекты: «Оказывается, после анализа большого количества разнообразных текстов определённый программный продукт по написанному вами тексту может сказать, холерик вы или сангвиник, в каком настроении вы находились в момент написания текста, насколько вы вообще эмоциональный человек».

Юлия уверена, что на следующей стадии развития программного анализа языка появятся полуавтоматизированный коучинг и полуавтоматизированные психологи. «Понятно, что программа не заменит психолога высокого класса, который понимает индивидуальную ситуацию человека, — говорит Юлия, — но на какое-то количество вопросов, особенно чтобы не дать человеку прямо сейчас выйти в окошко, автоматический психолог ответить сможет».

В сети можно найти материалы о других проблемах, которые искусственный интеллект решает с помощью анализа текста. Например, «Системный Блокъ» объясняет, как специальная программа помогает вычислить фейк-ньюс.

В основе метода, который описан в этом материале, измерение тематической разнородности новостных сообщений, которая меньше у фейковых материалов. Её, в свою очередь, определяют по ключевым словам и по их языковым характеристикам.

Роберт Дрынкин рассказывает, что сейчас искусственный интеллект выполняет разные задачи по анализу текста и не нуждается в лингвистических факторах: «В 2018 году появилась модель ELMO. Она без дополнительных условий, ориентируясь только на конкретные предложения, могла выполнить многие задачи: классификация текстов, перевод, трансфер стиля, диалог, сжатие текста, ответы на вопросы по тексту».

Через полгода программисты создали модель BERT. Её можно не только предобучить без лингвистических факторов, но и доучить потом практически на любую задачу.

«Последние два года NLP (Natural Language Processing, обработка естественного языка. — Прим. «Изборника») выглядит как вариации на тему BERT'ов. Раньше лингвисты делали факторы — формулировали условия, от которых зависит корректное решение задачи, а теперь пытаются понять, что на самом деле выучивает BERT», — говорит Роберт.
Исследователь отмечает, что без такой возможности не появились бы многие ветви современной лингвистики, в том числе культуромика — форма вычислительной лексикологии, которая изучает поведение человека и культурные тенденции с помощью количественного анализа оцифрованных текстов.

«С другой стороны, — рассуждает Дарья, — при таком масштабе и формальном подходе нужно понимать, что мы переходим от непосредственно текста, художественного произведения с уловками и приёмами, к его модели. Степень формальности такой модели исследователь определяет сам, и подводный камень здесь в том, что если очень увлечься, то модель перестанет отображать особенности текста-первоисточника. Кроме того, ловушкой может стать несовершенство технических методов и неоднозначные результаты исследования как следствие».

Ещё один нюанс, по словам специалиста, в том, что количественные методы, как следует из названия, оперируют числами и «привязать эти числа к смыслам» иногда очень непросто. Важно быть аккуратным в своих суждениях и не делать слишком обширных выводов, что актуально не только для цифрового литературоведения.

Впрочем, цифровое литературоведение — не единственное направление исследования, которое использует лингвистический анализ текста и прибегает к помощи компьютера. Юлия Селюкова рассказывает, что существуют психологические проекты: «Оказывается, после анализа большого количества разнообразных текстов определённый программный продукт по написанному вами тексту может сказать, холерик вы или сангвиник, в каком настроении вы находились в момент написания текста, насколько вы вообще эмоциональный человек».

Юлия уверена, что на следующей стадии развития программного анализа языка появятся полуавтоматизированный коучинг и полуавтоматизированные психологи. «Понятно, что программа не заменит психолога высокого класса, который понимает индивидуальную ситуацию человека, — говорит Юлия, — но на какое-то количество вопросов, особенно чтобы не дать человеку прямо сейчас выйти в окошко, автоматический психолог ответить сможет».

В сети можно найти материалы о других проблемах, которые искусственный интеллект решает с помощью анализа текста. Например, «Системный Блокъ» объясняет, как специальная программа помогает вычислить фейк-ньюс.

В основе метода, который описан в этом материале, измерение тематической разнородности новостных сообщений, которая меньше у фейковых материалов. Её, в свою очередь, определяют по ключевым словам и по их языковым характеристикам.

Роберт Дрынкин рассказывает, что сейчас искусственный интеллект выполняет разные задачи по анализу текста и не нуждается в лингвистических факторах: «В 2018 году появилась модель ELMO. Она без дополнительных условий, ориентируясь только на конкретные предложения, могла выполнить многие задачи: классификация текстов, перевод, трансфер стиля, диалог, сжатие текста, ответы на вопросы по тексту».

Через полгода программисты создали модель BERT. Её можно не только предобучить без лингвистических факторов, но и доучить потом практически на любую задачу.

«Последние два года NLP (Natural Language Processing, обработка естественного языка. — Прим. «Изборника») выглядит как вариации на тему BERT'ов. Раньше лингвисты делали факторы — формулировали условия, от которых зависит корректное решение задачи, а теперь пытаются понять, что на самом деле выучивает BERT», — говорит Роберт.
«В машинном обучении большая проблема в том, что вообще малопонятно, что именно делает модель. Результат ясен, но как программа к нему приходит, — совершенно непонятно»
«В машинном обучении большая проблема в том, что вообще малопонятно, что именно делает модель. Результат ясен, но как программа к нему приходит, — совершенно непонятно»
По словам Роберта Дрынкина, лингвисты пытаются понять, «как вообще этот BERT делает предсказания»: на какие слова и в какой момент смотрит, может ли выучить дерево разбора предложения.

Несмотря на то что детища компьютерной лингвистики иногда начинают жить как будто бы самостоятельно, «вылететь из гнезда» — обойтись без человека или заменить его в аналитической работе с текстами — у техники точно не получится.

«Посчитать слова машина может и сейчас, но отвечать на вопросы, что мы считаем, как считаем и чего хотим этим добиться, а также интерпретировать результаты всё равно придётся нам, — объясняет Дарья Максимова. — Традиционное литературоведение с внимательным чтением текста, с попытками выделить отсылки, приёмы, методы, заметить какую-то интертекстуальность требует немалого багажа знаний, насмотренности, настроенной читательской "оптики". Пока у машины ничего этого нет и ей нужны мы… хотя сейчас, наверное, всё-таки наоборот: она нужна нам. Основная движущая сила — всё ещё люди».

«Машина обучается на основе тех данных, которые вы в неё закладываете, — говорит Юлия Селюкова. — Человеческая речь развивается постоянно: у нас появляются новые слова, новые обороты; какие-то слова рождаются, какие-то умирают. Если информацию об этом в машину не загрузить, она и не будет ею обладать».

Юлия не согласна с мнением, что когда-то искусственный интеллект сможет написать текст, который напоминает оригинальное произведение. Нейросети создают собственные романы и стихотворения, но эти работы основаны на уже существующих текстах. Есть даже интерактивный русскоязычный «Порфирьевич». Он дописывает текст по началу, которое предлагает пользователь.
По словам Роберта Дрынкина, лингвисты пытаются понять, «как вообще этот BERT делает предсказания»: на какие слова и в какой момент смотрит, может ли выучить дерево разбора предложения.

Несмотря на то что детища компьютерной лингвистики иногда начинают жить как будто бы самостоятельно, «вылететь из гнезда» — обойтись без человека или заменить его в аналитической работе с текстами — у техники точно не получится.

«Посчитать слова машина может и сейчас, но отвечать на вопросы, что мы считаем, как считаем и чего хотим этим добиться, а также интерпретировать результаты всё равно придётся нам, — объясняет Дарья Максимова. — Традиционное литературоведение с внимательным чтением текста, с попытками выделить отсылки, приёмы, методы, заметить какую-то интертекстуальность требует немалого багажа знаний, насмотренности, настроенной читательской "оптики". Пока у машины ничего этого нет и ей нужны мы… хотя сейчас, наверное, всё-таки наоборот: она нужна нам. Основная движущая сила — всё ещё люди».

«Машина обучается на основе тех данных, которые вы в неё закладываете, — говорит Юлия Селюкова. — Человеческая речь развивается постоянно: у нас появляются новые слова, новые обороты; какие-то слова рождаются, какие-то умирают. Если информацию об этом в машину не загрузить, она и не будет ею обладать».

Юлия не согласна с мнением, что когда-то искусственный интеллект сможет написать текст, который напоминает оригинальное произведение. Нейросети создают собственные романы и стихотворения, но эти работы основаны на уже существующих текстах. Есть даже интерактивный русскоязычный «Порфирьевич». Он дописывает текст по началу, которое предлагает пользователь.
«Машина не может быть гениальной, у машины не может быть озарений, у машины нет фантазии. Создать выдающийся творческий проект у неё, мне кажется, не получится вообще никогда»
«Машина не может быть гениальной, у машины не может быть озарений, у машины нет фантазии. Создать выдающийся творческий проект у неё, мне кажется, не получится вообще никогда»
«Чтобы решить проблемы, связанные с искусственным интеллектом, мы даём машинам больше данных для анализа. Мы думаем, что так компьютеры начнут лучше думать, самообучаться, — рассказывает Юлия. — Франсуа Шале, один из идеологов искусственного интеллекта, сравнил это с попыткой достать до Луны с помощью более высоких зданий. Искусственный интеллект уже достаточно хорошо развит, но, похоже, нужно идти в другую сторону, чтобы он хоть отдалённо напоминал что-то "гуманоидообразное"».

Именно поэтому, на взгляд специалиста, для филологов и лингвистов машина будет не более чем «сильным, хорошим помощником».
«Чтобы решить проблемы, связанные с искусственным интеллектом, мы даём машинам больше данных для анализа. Мы думаем, что так компьютеры начнут лучше думать, самообучаться, — рассказывает Юлия. — Франсуа Шале, один из идеологов искусственного интеллекта, сравнил это с попыткой достать до Луны с помощью более высоких зданий. Искусственный интеллект уже достаточно хорошо развит, но, похоже, нужно идти в другую сторону, чтобы он хоть отдалённо напоминал что-то "гуманоидообразное"».

Именно поэтому, на взгляд специалиста, для филологов и лингвистов машина будет не более чем «сильным, хорошим помощником».
«Филолог-исследователь — это всё-таки человек, кто-то, кто должен найти способ креативно решить проблемы, с которыми сталкивается наука. Появляются новые языки, сленги, языковые направления. По-прежнему есть письменные памятники, которые мы не можем прочитать, потому что просто не знаем, как это сделать. Мне кажется, в одиночку машина здесь не справится»
«Филолог-исследователь — это всё-таки человек, кто-то, кто должен найти способ креативно решить проблемы, с которыми сталкивается наука. Появляются новые языки, сленги, языковые направления. По-прежнему есть письменные памятники, которые мы не можем прочитать, потому что просто не знаем, как это сделать. Мне кажется, в одиночку машина здесь не справится»
По мнению Юлии, главное для филолога и лингвиста — умение подходить к работе творчески, и именно оно не позволит этим специальностям исчезнуть: «Профессии, которые требуют креатива, сохранятся. В этом уверены все, кто прогнозирует изменения в профессиональной среде».
По мнению Юлии, главное для филолога и лингвиста — умение подходить к работе творчески, и именно оно не позволит этим специальностям исчезнуть: «Профессии, которые требуют креатива, сохранятся. В этом уверены все, кто прогнозирует изменения в профессиональной среде».