Entrenamiento de Modelos de Lenguaje Socialmente Alineados en una Sociedad Humana Simulada
Training Socially Aligned Language Models in Simulated Human Society
May 26, 2023
Autores: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi
cs.AI
Resumen
La alineación social en los sistemas de IA tiene como objetivo garantizar que estos modelos se comporten de acuerdo con los valores sociales establecidos. Sin embargo, a diferencia de los humanos, quienes alcanzan consenso sobre juicios de valor a través de la interacción social, los modelos de lenguaje (LMs) actuales están entrenados para replicar rígidamente su corpus de entrenamiento de forma aislada, lo que resulta en una generalización deficiente en escenarios desconocidos y vulnerabilidad a ataques adversarios. Este trabajo presenta un paradigma de entrenamiento novedoso que permite a los LMs aprender a partir de interacciones sociales simuladas. En comparación con las metodologías existentes, nuestro enfoque es considerablemente más escalable y eficiente, demostrando un rendimiento superior en benchmarks de alineación y evaluaciones humanas. Este cambio de paradigma en el entrenamiento de LMs nos acerca un paso más al desarrollo de sistemas de IA que puedan reflejar de manera robusta y precisa las normas y valores sociales.
English
Social alignment in AI systems aims to ensure that these models behave
according to established societal values. However, unlike humans, who derive
consensus on value judgments through social interaction, current language
models (LMs) are trained to rigidly replicate their training corpus in
isolation, leading to subpar generalization in unfamiliar scenarios and
vulnerability to adversarial attacks. This work presents a novel training
paradigm that permits LMs to learn from simulated social interactions. In
comparison to existing methodologies, our approach is considerably more
scalable and efficient, demonstrating superior performance in alignment
benchmarks and human evaluations. This paradigm shift in the training of LMs
brings us a step closer to developing AI systems that can robustly and
accurately reflect societal norms and values.