シミュレートされた人間社会における社会的に整合性のある言語モデルの訓練
Training Socially Aligned Language Models in Simulated Human Society
May 26, 2023
著者: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi
cs.AI
要旨
AIシステムにおける社会的整合性は、これらのモデルが確立された社会的価値観に従って行動することを保証することを目指している。しかし、人間が社会的相互作用を通じて価値判断の合意を形成するのとは異なり、現在の言語モデル(LMs)は、孤立して訓練コーパスを厳密に再現するように訓練されており、未知のシナリオでの汎化性能が低く、敵対的攻撃に対して脆弱である。本研究では、LMsが模擬的な社会的相互作用から学習することを可能にする新しい訓練パラダイムを提案する。既存の方法論と比較して、我々のアプローチははるかにスケーラブルで効率的であり、整合性ベンチマークおよび人間評価において優れた性能を示す。このLMs訓練におけるパラダイムシフトは、社会的規範や価値観を堅牢かつ正確に反映するAIシステムの開発に一歩近づくものである。
English
Social alignment in AI systems aims to ensure that these models behave
according to established societal values. However, unlike humans, who derive
consensus on value judgments through social interaction, current language
models (LMs) are trained to rigidly replicate their training corpus in
isolation, leading to subpar generalization in unfamiliar scenarios and
vulnerability to adversarial attacks. This work presents a novel training
paradigm that permits LMs to learn from simulated social interactions. In
comparison to existing methodologies, our approach is considerably more
scalable and efficient, demonstrating superior performance in alignment
benchmarks and human evaluations. This paradigm shift in the training of LMs
brings us a step closer to developing AI systems that can robustly and
accurately reflect societal norms and values.