«ИИ оказал существенное влияние на ситуацию с заимствованиями в научных работах»
Интервью с исполнительным директором АО «Антиплагиат» Юрием Чеховичем
Компания «Антиплагиат» и Московский городской педагогический университет объявили, что будут совместно бороться с неэтичным использованием машинных генераторов текста в научных и академических работах. Соответствующее соглашение о сотрудничестве было подписано 25 января.
Планируется создание новых технологий, направленных на предотвращение академического мошенничества и обеспечение высоких стандартов в области образования и науки в РФ. Как определить, что текст был сгенерирован искусственным интеллектом (ИИ) и что такое «неэтичное использование» нейросетей в интервью редакции сайта Российского Союза ректоров рассказал исполнительный директор «Антиплагиата» кандидат физико-математических наук Юрий Чехович.
— Юрий Викторович, усугубило ли, на ваш взгляд, ситуацию с заимствованиями использование технологий ИИ при подготовке выпускных квалификационных или научных работ?
— Да, конечно, технологии искусственного интеллекта оказали существенное влияние на ситуацию с заимствованиями в научных работах. Год назад все образовательные системы в мире столкнулись с тем, что студенты начали использовать чат-боты для написания как просто домашних заданий, так и квалификационных работ и научных статей. Это стало серьезной проблемой, которую необходимо было быстро решить.
Имеющиеся до этого способы выявления плагиата не работали, потому что они нацелены на поиск заимствований из уже существующих документов, а генераторы чаще всего обучены таким образом, чтобы создавать принципиально новый текст. Соответственно, понадобилось создание нового инструмента, который смог бы выявлять в документах машинно сгенерированные фрагменты текста.
— А как определяется, что текст был сгенерирован искусственным интеллектом?
— Компания «Антиплагиат» одна из первых в мире выпустила детектор текстов, написанных нейросетью. Сейчас он проверяет все документы подписчиков системы. Это инструмент, который проверяет тексты на наличие искусственно сгенерированных фрагментов и выносит в отчет информацию об этом. Таким образом он сообщает пользователю системы, что в тексте есть признаки искусственной генерации.
Каким образом работают эти алгоритмы? Система делит каждый текст на части и выполняет классификацию каждой из них по отдельности. Она определяет, какая из них написана человеком, а какая — машиной. Это делается на основе анализа большого набора признаков.
В основе алгоритма детекции тоже лежит искусственный интеллект, обученный для того, чтобы решать не задачу генерации текстов, а задачу классификации текстов на искусственные и естественные. Нам удалось быстро обучить этот алгоритм благодаря многолетнему опыту исследований по обработке естественного языка (Natural language processing, или NLP).
— Что делать, если система выделила фрагмент текста как потенциально сгенерированный нейросетью?
— Когда система «Антиплагиат» обнаруживает, что в тексте много признаков того, что его написала нейросеть, она выделяет этот фрагмент текста как подозрительный. Однако сделать финальный вывод о том, что этот текст был написан нейросетью, пока нельзя. Наша система выступает лишь инструментом, подсвечивающим подозрительные фрагменты работы, а дальше дело за человеком.
Есть несколько признаков, на которые стоит обратить внимание, чтобы понять, написан текст человеком или машиной. Проверяющему стоит насторожиться, если он видит частые повторы одного и того же смысла в тексте или противоречащие друг другу выводы. Мы называем это «эффект рыбки Дори*», потому что кажется, что автор либо забыл о том, что уже писал, и повторяет еще раз, либо противоречит сам себе, как будто неожиданно поменял точку зрения. Мы советуем всегда проверять работы через систему, а затем внимательно прочитывать подозрительные фрагменты.
— Если говорить о правильной терминологии, текст, сгенерированный нейросетью, — это плагиат?
— Технически текст, сгенерированный нейросетью, плагиатом быть не может. Плагиат предполагает незаконное намеренное использование чужих идей или текстов, то есть чужой интеллектуальной собственности, в своей работе. Нейросеть не обладает сознанием, намерением и авторским правом, и с юридической точки зрения генерация текста с помощью ИИ плагиатом не является. Однако последующее использование сгенерированного текста может носить признаки плагиата или нарушений академической этики.
За рубежом принято называть плагиатом не только неправомерное заимствование, но и неэтичное использование текста, поэтому возникает определенная терминологическая путаница. Важно, что нарушение возникает в случае, если автор пытается скрыть использование искусственного интеллекта или не соблюдает правила выполнения задания.
— Что такое неэтичное использование ИИ в научных или учебных работах?
— Проверка текстов на плагиат проводится не только для того, чтобы избежать нарушения авторского права, но также для того, чтобы убедиться, что идеи автора оригинальные, а написанный текст — это результат проделанной научной работы. Нарушение этики возникает в том случае, когда автор не сообщает о том, что для написания текста использовал ИИ. Кроме того, бывают задания, которые предполагают самостоятельное выполнение. В таком случае использование машинно-сгенерированного текста будет считаться нарушением правил выполнения задания.
Есть еще одна проблема, которую многие упускают из виду, потому что мало кто читает пользовательское соглашение, когда начинает работать с чат-ботами. А между тем некоторые разработчики вносят туда пункт о том, что все тексты, сгенерированные их системой, являются интеллектуальной собственностью компании, которая разработала этот чат-бот. Получается, когда человек добавляет такой текст в свою работу, он нарушает права владельца сервиса.
— Какие этические нормы, на ваш взгляд, могут быть установлены в области использования сгенерированных текстов?
— Можно предположить некоторые меры, которые помогут нам развиваться в согласии с искусственным интеллектом и использовать его как инструмент, коим он и является. Допустим, мы разрешаем студентам использовать тот же самый ChatGPT в научных работах. Сразу должны начать действовать правила. Как минимум два: обязательная ссылка на использование ИИ и четкое понимание, что, несмотря на то что текст писал чат-бот, всю ответственность за его содержание несет автор.
Декларация того, какие инструменты использовались для написания текста, и описание того, как именно они использовались, — это минимальное требование к работе с ИИ. Пока не существует общих правил о том, как ссылаться на нейросеть. Кто-то считает, что достаточно упомянуть использование сервисов ИИ, другие требуют более детальных описаний способа использования. Идут дискуссии о необходимости включения в приложения к работе запросов, которые автор давал нейросети (промптов), кто-то настаивает на том, чтобы прикладывать полностью весь диалог с чат-ботом. Думаю, в ближайшее время такие регламенты будут создаваться и многократно совершенствоваться.
Кроме того, человек, использующий для написания текста ИИ, должен четко понимать, что машина не может нести ответственность за созданный текст. Если окажется, что примеры, приведенные ею, выдуманные, с неприятными последствиями столкнется автор, а не она. Отсюда вытекает рекомендация о том, чтобы анализировать текст и проверять примеры, цифры и факты.
— Как вы считаете, активное развитие ИИ приведет к тому, что борьба с чрезмерным использованием сгенерированных текстов будет борьбой в стиле «пуля против брони», то есть совершенствование одного будет приводить к совершенствованию другого? Или однажды сгенерированный текст нельзя будет отличить от написанного самостоятельно человеком?
— Сейчас эта область развивается довольно бурно, спрогнозировать, что будет дальше, сложно. Случиться может очень многое, в том числе то, что сгенерированный текст нельзя будет отличить от человеческого, и нам придется учиться жить в новой реальности. Может оказаться, что вступят в силу нормативы детектирования ИИ-текстов в научных работах, и мы будем работать с этим. Еще один вариант: владельцев сервисов, чьи чат-боты генерируют тексты, обяжут внедрить систему логирования действий пользователей с возможностью предъявить их потом в случае необходимости.
Область новая, развивается чрезвычайно быстро. Полтора года назад мы даже подумать не могли о том, что будем вести активные дискуссии о влиянии ИИ на нашу ежедневную жизнь. Что будет еще через полтора года, сейчас трудно даже предположить.
*Рыбка Дори — персонаж мультипликационного фильма «В поисках Немо» (2003 год) производства студии Уолта Диснея, особенностью рыбки было нарушение кратковременной памяти.