ChatPaper.aiChatPaper

Estruturas de Alinhamento Societal Podem Melhorar o Alinhamento de LLMs

Societal Alignment Frameworks Can Improve LLM Alignment

February 27, 2025
Autores: Karolina Stańczak, Nicholas Meade, Mehar Bhatia, Hattie Zhou, Konstantin Böttinger, Jeremy Barnes, Jason Stanley, Jessica Montgomery, Richard Zemel, Nicolas Papernot, Nicolas Chapados, Denis Therien, Timothy P. Lillicrap, Ana Marasović, Sylvie Delacroix, Gillian K. Hadfield, Siva Reddy
cs.AI

Resumo

Os avanços recentes em modelos de linguagem de grande escala (LLMs) têm se concentrado em produzir respostas que atendam às expectativas humanas e estejam alinhadas com valores compartilhados - um processo denominado alinhamento. No entanto, alinhar LLMs continua sendo um desafio devido à desconexão inerente entre a complexidade dos valores humanos e a natureza restrita das abordagens tecnológicas projetadas para abordá-los. Os métodos atuais de alinhamento frequentemente resultam em objetivos mal especificados, refletindo o problema mais amplo de contratos incompletos, ou seja, a impraticabilidade de especificar um contrato entre um desenvolvedor de modelos e o próprio modelo que aborde todos os cenários no alinhamento de LLMs. Neste artigo, argumentamos que melhorar o alinhamento de LLMs requer a incorporação de insights provenientes de frameworks de alinhamento social, incluindo alinhamento social, econômico e contratual, e discutimos possíveis soluções extraídas desses domínios. Dado o papel da incerteza dentro dos frameworks de alinhamento social, investigamos como ela se manifesta no alinhamento de LLMs. Concluímos nossa discussão oferecendo uma visão alternativa sobre o alinhamento de LLMs, enquadrando a natureza subespecificada de seus objetivos como uma oportunidade, em vez de buscar sua especificação perfeita. Além de melhorias técnicas no alinhamento de LLMs, discutimos a necessidade de designs de interfaces de alinhamento participativo.
English
Recent progress in large language models (LLMs) has focused on producing responses that meet human expectations and align with shared values - a process coined alignment. However, aligning LLMs remains challenging due to the inherent disconnect between the complexity of human values and the narrow nature of the technological approaches designed to address them. Current alignment methods often lead to misspecified objectives, reflecting the broader issue of incomplete contracts, the impracticality of specifying a contract between a model developer, and the model that accounts for every scenario in LLM alignment. In this paper, we argue that improving LLM alignment requires incorporating insights from societal alignment frameworks, including social, economic, and contractual alignment, and discuss potential solutions drawn from these domains. Given the role of uncertainty within societal alignment frameworks, we then investigate how it manifests in LLM alignment. We end our discussion by offering an alternative view on LLM alignment, framing the underspecified nature of its objectives as an opportunity rather than perfect their specification. Beyond technical improvements in LLM alignment, we discuss the need for participatory alignment interface designs.

Summary

AI-Generated Summary

PDF172March 5, 2025