Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели Generative Pre-trained Transformer (GPT) продемонстрировали впечатляющий прогресс в своих возможностях, привлекая внимание как специалистов, так и широкой общественности. Однако, несмотря на ограниченное количество исследований, посвященных надежности моделей GPT, практики предлагают использовать мощные GPT-модели в чувствительных областях, таких как здравоохранение и финансы, где ошибки могут быть крайне дорогостоящими. В связи с этим данная работа предлагает всестороннюю оценку надежности крупных языковых моделей с акцентом на GPT-4 и GPT-3.5, учитывая различные аспекты, включая токсичность, стереотипные предубеждения, устойчивость к атакам, устойчивость к данным вне распределения, устойчивость к враждебным демонстрациям, конфиденциальность, машинную этику и справедливость. На основе наших оценок мы обнаруживаем ранее неопубликованные уязвимости, связанные с угрозами надежности. Например, мы выяснили, что модели GPT могут быть легко введены в заблуждение для генерации токсичных и предвзятых выводов, а также для утечки конфиденциальной информации как из обучающих данных, так и из истории диалогов. Мы также обнаружили, что, хотя GPT-4 обычно более надежна, чем GPT-3.5, на стандартных тестах, GPT-4 оказывается более уязвимой при использовании методов "взлома" системы или вводящих в заблуждение пользовательских запросов, возможно, из-за того, что GPT-4 более точно следует (ошибочным) инструкциям. Наша работа представляет собой всестороннюю оценку надежности моделей GPT и выявляет пробелы в их надежности. Наш бенчмарк доступен публично по адресу https://decodingtrust.github.io/.