Русскоязычная нейросеть успешно сдала ЕГЭ по обществознанию
Эксперимент прошел под наблюдением комиссии из НИУ ВШЭ
Нейросетевая модель GigaChat от «Сбера» под наблюдением экспертной комиссии из НИУ ВШЭ выполнила все задания единого государственного экзамена по обществознанию и набрала 67 баллов. Это превышает минимальный балл для подачи в вуз (45 баллов) и средний балл по предмету в 2023 году (56,4 балла), рассказал в рамках конференции AIJ 2023 вице-президент по Цифровым поверхностям «Салют» Сбербанка Денис Филиппов, об этом сообщает пресс-служба ВШЭ.
В ходе испытаний проверялись способности обновленной версии GigaChat, в основе которой лежит одна из наиболее продвинутых моделей для русского языка с 29 млрд параметров. Для проведения эксперимента был выбран предмет «Обществознание». Таким образом, успешная сдача этого экзамена свидетельствует о высокой степени зрелости модели в вопросах социальных норм, экономических и юридических законов, отмечают в НИУ ВШЭ.
Уточняется, что для проверки знаний GigaChat использовались только актуальные тестовые задания 2024 года, размещенные на сайте ФИПИ. Перед экспериментом команда удостоверилась, что эти задания не применялись для предварительного обучения модели. Ответы GigaChat сначала проверил независимый эксперт НИУ ВШЭ, а затем экспертная комиссия Института образования ВШЭ. Оценивались не только корректность постановки задач и достоверность фактологических ответов GigaChat, но и качество выполнения творческих (открытых) заданий.
«Наши эксперты оценивали знания GigaChat независимо от исследовательских и инженерных команд Сбера. Мы проверяли ответы так же, как если бы их давал обычный выпускник школы. По результатам видно, что нейросетевая модель не только обладает достаточным уровнем фактических знаний, но также способна логически мыслить и выбирать лучшее решение из возможных», — сказал директор Института образования ВШЭ Евгений Терентьев.
Сообщается, что эксперимент, аналогичный проведенному совместно с ВШЭ, скоро сможет повторить каждый желающий — разработчики GigaChat готовят к публикации на GitHub специальный скрипт.