Создан подход, защищающий ИИ от последствий обучения на сгенерированных данных

19.05.2026 15:21

Исследователи из Норвегии, Италии и Великобритании разработали новую методику обучения нейросетей, которая защищает их от резкого учащения галлюцинаций и частой выработки неправильных ответов в результате попадания в обучающую выборку ранее сгенерированных ИИ данных. Об этом сообщила пресс-служба британского Королевского колледжа Лондона (KCL).

"Проблема коллапса нейросетей в прошлом изучалась на примере больших языковых моделей, при экспериментах с которыми не совсем ясно, как это системы ИИ работают и можно ли воспроизвести результаты этих опытов. Мы провели опыты на небольшой и просто устроенной системе ИИ, и обнаружили, что добавление всего одного правильно подобранного примера в выборку снижает число галлюцинаций и бессмысленных ответов", - заявил профессор KCL Яссер Руди, чьи слова приводит пресс-служба вуза.

Как отмечают ученые, около двух лет назад математики обнаружили, что системы ИИ, обученные на частично или полностью сгенерированных данных, постепенно теряют способность давать осмысленные ответы на запросы и начинают часто галлюцинировать и генерировать бессмыслицу. Это породило опасения, что уже в ближайшее время качество работы новых версий больших языковых моделей и других нейросетей сильно упадет в результате того, что интернет очень быстро насыщается продуктами "творчества" предыдущих версий этих ИИ.

Британские, норвежские и итальянские математики заинтересовались тем, как именно возникает данный феномен, который ученые называют "коллапсом нейросети". Для получения ответа на этот вопрос исследователи подготовили относительно простую систему ИИ, которая постепенно училась решать физические уравнения движения. Ученые модифицировали процесс ее обучения таким образом, что они могли использовать для ее дообучения только данные, сгенерированные данной нейросетью в прошлые раунды работы.

Проведенные учеными наблюдения показали, что "коллапс нейросети" неизбежным образом возникает при обучении на сгенерированных данных, что подтвердило результаты предыдущих опытов на больших языковых моделях-трансформерах и генеративных системах ИИ нескольких разных типов. При этом математики также обнаружили, что наличие хотя бы одного "внешнего" элемента в обучающей выборке предотвращает коллапс и резко снижает число галлюцинаций в ответах нейросети.

Схожих результатов ученые достигли в опытах с еще одним классом систем машинного обучения, так называемых ограниченных машинах Больцмана. Это говорит об схожих причинах коллапса" в работе большого числа разных форм ИИ, а также о возможности использования схожих модификаций обучающей выборки для их защиты от галлюцинаций и генерирования неправильных ответов, подытожили исследователи.

Фото: magnific.com

—

118

Создан подход, защищающий ИИ от последствий обучения на сгенерированных данных

Комментарии

Категории

Реклама

Еще по теме

Мосты в будущее: роль мягких навыков и инноваций в строительстве

Веселые карТИМки

Планы по строительству дорог осталось подкрепить реальными деньгами

О DesignMyHome.ru