Training sozial ausgerichteter Sprachmodelle in einer simulierten menschlichen Gesellschaft
Training Socially Aligned Language Models in Simulated Human Society
May 26, 2023
Autoren: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi
cs.AI
Zusammenfassung
Soziale Ausrichtung in KI-Systemen zielt darauf ab, sicherzustellen, dass diese Modelle gemäß etablierter gesellschaftlicher Werte agieren. Im Gegensatz zu Menschen, die durch soziale Interaktionen einen Konsens über Werturteile erzielen, sind aktuelle Sprachmodelle (LMs) jedoch darauf trainiert, ihr Trainingskorpus isoliert und starr zu replizieren. Dies führt zu einer unzureichenden Generalisierung in unbekannten Szenarien und einer Anfälligkeit für adversariale Angriffe. Diese Arbeit stellt ein neuartiges Trainingsparadigma vor, das es LMs ermöglicht, aus simulierten sozialen Interaktionen zu lernen. Im Vergleich zu bestehenden Methoden ist unser Ansatz deutlich skalierbarer und effizienter und zeigt eine überlegene Leistung in Ausrichtungs-Benchmarks und menschlichen Bewertungen. Dieser Paradigmenwechsel im Training von LMs bringt uns einen Schritt näher an die Entwicklung von KI-Systemen, die gesellschaftliche Normen und Werte robust und präzise widerspiegeln können.
English
Social alignment in AI systems aims to ensure that these models behave
according to established societal values. However, unlike humans, who derive
consensus on value judgments through social interaction, current language
models (LMs) are trained to rigidly replicate their training corpus in
isolation, leading to subpar generalization in unfamiliar scenarios and
vulnerability to adversarial attacks. This work presents a novel training
paradigm that permits LMs to learn from simulated social interactions. In
comparison to existing methodologies, our approach is considerably more
scalable and efficient, demonstrating superior performance in alignment
benchmarks and human evaluations. This paradigm shift in the training of LMs
brings us a step closer to developing AI systems that can robustly and
accurately reflect societal norms and values.