Обучение социально адаптированных языковых моделей в симулированном человеческом обществе
Training Socially Aligned Language Models in Simulated Human Society
May 26, 2023
Авторы: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi
cs.AI
Аннотация
Социальная согласованность в системах искусственного интеллекта направлена на обеспечение того, чтобы эти модели действовали в соответствии с установленными общественными ценностями. Однако, в отличие от людей, которые достигают консенсуса в ценностных суждениях через социальное взаимодействие, современные языковые модели (ЯМ) обучаются жестко воспроизводить свой обучающий корпус в изоляции, что приводит к недостаточной обобщаемости в незнакомых сценариях и уязвимости к атакам со стороны злоумышленников. В данной работе представлена новая парадигма обучения, которая позволяет ЯМ обучаться на основе смоделированных социальных взаимодействий. По сравнению с существующими методиками, наш подход значительно более масштабируем и эффективен, демонстрируя превосходные результаты в тестах на согласованность и в оценках людей. Этот сдвиг парадигмы в обучении ЯМ приближает нас на шаг к созданию систем искусственного интеллекта, которые могут устойчиво и точно отражать социальные нормы и ценности.
English
Social alignment in AI systems aims to ensure that these models behave
according to established societal values. However, unlike humans, who derive
consensus on value judgments through social interaction, current language
models (LMs) are trained to rigidly replicate their training corpus in
isolation, leading to subpar generalization in unfamiliar scenarios and
vulnerability to adversarial attacks. This work presents a novel training
paradigm that permits LMs to learn from simulated social interactions. In
comparison to existing methodologies, our approach is considerably more
scalable and efficient, demonstrating superior performance in alignment
benchmarks and human evaluations. This paradigm shift in the training of LMs
brings us a step closer to developing AI systems that can robustly and
accurately reflect societal norms and values.