ChatPaper.aiChatPaper

Het trainen van sociaal afgestemde taalmodellen in een gesimuleerde menselijke samenleving

Training Socially Aligned Language Models in Simulated Human Society

May 26, 2023
Auteurs: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi
cs.AI

Samenvatting

Sociale afstemming in AI-systemen heeft als doel ervoor te zorgen dat deze modellen zich gedragen volgens gevestigde maatschappelijke waarden. In tegenstelling tot mensen, die consensus over waardeoordelen bereiken via sociale interactie, zijn huidige taalmodelen (LMs) getraind om hun trainingscorpus rigide te repliceren in isolatie, wat leidt tot suboptimale generalisatie in onbekende scenario's en kwetsbaarheid voor adversariële aanvallen. Dit werk presenteert een nieuw trainingsparadigma dat LMs in staat stelt te leren van gesimuleerde sociale interacties. In vergelijking met bestaande methodologieën is onze aanzienlijk schaalbaarder en efficiënter, wat resulteert in superieure prestaties in afstemmingsbenchmarks en menselijke evaluaties. Deze paradigmaverschuiving in de training van LMs brengt ons een stap dichter bij het ontwikkelen van AI-systemen die robuust en nauwkeurig maatschappelijke normen en waarden kunnen weerspiegelen.
English
Social alignment in AI systems aims to ensure that these models behave according to established societal values. However, unlike humans, who derive consensus on value judgments through social interaction, current language models (LMs) are trained to rigidly replicate their training corpus in isolation, leading to subpar generalization in unfamiliar scenarios and vulnerability to adversarial attacks. This work presents a novel training paradigm that permits LMs to learn from simulated social interactions. In comparison to existing methodologies, our approach is considerably more scalable and efficient, demonstrating superior performance in alignment benchmarks and human evaluations. This paradigm shift in the training of LMs brings us a step closer to developing AI systems that can robustly and accurately reflect societal norms and values.
PDF30February 7, 2026