Entraînement des modèles de langage socialement alignés dans une société humaine simulée
Training Socially Aligned Language Models in Simulated Human Society
May 26, 2023
Auteurs: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi
cs.AI
Résumé
L'alignement social dans les systèmes d'IA vise à garantir que ces modèles se comportent conformément aux valeurs sociétales établies. Cependant, contrairement aux humains, qui parviennent à un consensus sur les jugements de valeur par le biais d'interactions sociales, les modèles de langage (LMs) actuels sont entraînés à reproduire de manière rigide leur corpus d'apprentissage en isolation, ce qui entraîne une généralisation médiocre dans des scénarios non familiers et une vulnérabilité aux attaques adverses. Ce travail présente un nouveau paradigme d'entraînement qui permet aux LMs d'apprendre à partir d'interactions sociales simulées. Par rapport aux méthodologies existantes, notre approche est considérablement plus évolutive et efficace, démontrant des performances supérieures dans les benchmarks d'alignement et les évaluations humaines. Ce changement de paradigme dans l'entraînement des LMs nous rapproche d'un pas vers le développement de systèmes d'IA capables de refléter de manière robuste et précise les normes et valeurs sociétales.
English
Social alignment in AI systems aims to ensure that these models behave
according to established societal values. However, unlike humans, who derive
consensus on value judgments through social interaction, current language
models (LMs) are trained to rigidly replicate their training corpus in
isolation, leading to subpar generalization in unfamiliar scenarios and
vulnerability to adversarial attacks. This work presents a novel training
paradigm that permits LMs to learn from simulated social interactions. In
comparison to existing methodologies, our approach is considerably more
scalable and efficient, demonstrating superior performance in alignment
benchmarks and human evaluations. This paradigm shift in the training of LMs
brings us a step closer to developing AI systems that can robustly and
accurately reflect societal norms and values.