Addestramento di Modelli Linguistici Socialmente Allineati in una Società Umana Simulata
Training Socially Aligned Language Models in Simulated Human Society
May 26, 2023
Autori: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi
cs.AI
Abstract
L'allineamento sociale nei sistemi di IA mira a garantire che questi modelli si comportino in conformità con i valori sociali stabiliti. Tuttavia, a differenza degli esseri umani, che raggiungono un consenso sui giudizi di valore attraverso l'interazione sociale, gli attuali modelli linguistici (LM) sono addestrati a replicare rigidamente il loro corpus di addestramento in isolamento, portando a una generalizzazione insufficiente in scenari non familiari e a una vulnerabilità agli attacchi avversari. Questo lavoro presenta un nuovo paradigma di addestramento che consente ai LM di apprendere da interazioni sociali simulate. Rispetto alle metodologie esistenti, il nostro approccio è considerevolmente più scalabile ed efficiente, dimostrando prestazioni superiori nei benchmark di allineamento e nelle valutazioni umane. Questo cambiamento di paradigma nell'addestramento dei LM ci avvicina un passo ulteriore allo sviluppo di sistemi di IA che possano riflettere in modo robusto e accurato le norme e i valori sociali.
English
Social alignment in AI systems aims to ensure that these models behave
according to established societal values. However, unlike humans, who derive
consensus on value judgments through social interaction, current language
models (LMs) are trained to rigidly replicate their training corpus in
isolation, leading to subpar generalization in unfamiliar scenarios and
vulnerability to adversarial attacks. This work presents a novel training
paradigm that permits LMs to learn from simulated social interactions. In
comparison to existing methodologies, our approach is considerably more
scalable and efficient, demonstrating superior performance in alignment
benchmarks and human evaluations. This paradigm shift in the training of LMs
brings us a step closer to developing AI systems that can robustly and
accurately reflect societal norms and values.