Treinamento de Modelos de Linguagem Socialmente Alinhados em uma Sociedade Humana Simulada
Training Socially Aligned Language Models in Simulated Human Society
May 26, 2023
Autores: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi
cs.AI
Resumo
O alinhamento social em sistemas de IA visa garantir que esses modelos se comportem de acordo com os valores sociais estabelecidos. No entanto, ao contrário dos humanos, que alcançam consenso sobre julgamentos de valor por meio de interações sociais, os modelos de linguagem (LMs) atuais são treinados para replicar rigidamente seu corpus de treinamento de forma isolada, resultando em generalização insatisfatória em cenários desconhecidos e vulnerabilidade a ataques adversariais. Este trabalho apresenta um novo paradigma de treinamento que permite que os LMs aprendam a partir de interações sociais simuladas. Em comparação com as metodologias existentes, nossa abordagem é consideravelmente mais escalável e eficiente, demonstrando desempenho superior em benchmarks de alinhamento e avaliações humanas. Essa mudança de paradigma no treinamento de LMs nos aproxima um passo mais perto de desenvolver sistemas de IA que possam refletir de forma robusta e precisa as normas e valores sociais.
English
Social alignment in AI systems aims to ensure that these models behave
according to established societal values. However, unlike humans, who derive
consensus on value judgments through social interaction, current language
models (LMs) are trained to rigidly replicate their training corpus in
isolation, leading to subpar generalization in unfamiliar scenarios and
vulnerability to adversarial attacks. This work presents a novel training
paradigm that permits LMs to learn from simulated social interactions. In
comparison to existing methodologies, our approach is considerably more
scalable and efficient, demonstrating superior performance in alignment
benchmarks and human evaluations. This paradigm shift in the training of LMs
brings us a step closer to developing AI systems that can robustly and
accurately reflect societal norms and values.