ChatPaper.aiChatPaper

Los Marcos de Alineación Social Pueden Mejorar la Alineación de los Modelos de Lenguaje de Gran Escala

Societal Alignment Frameworks Can Improve LLM Alignment

February 27, 2025
Autores: Karolina Stańczak, Nicholas Meade, Mehar Bhatia, Hattie Zhou, Konstantin Böttinger, Jeremy Barnes, Jason Stanley, Jessica Montgomery, Richard Zemel, Nicolas Papernot, Nicolas Chapados, Denis Therien, Timothy P. Lillicrap, Ana Marasović, Sylvie Delacroix, Gillian K. Hadfield, Siva Reddy
cs.AI

Resumen

Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han centrado en producir respuestas que cumplan con las expectativas humanas y se alineen con valores compartidos, un proceso denominado alineación. Sin embargo, alinear los LLMs sigue siendo un desafío debido a la desconexión inherente entre la complejidad de los valores humanos y la naturaleza limitada de los enfoques tecnológicos diseñados para abordarlos. Los métodos actuales de alineación a menudo resultan en objetivos mal especificados, reflejando el problema más amplio de los contratos incompletos, es decir, la impracticabilidad de especificar un contrato entre un desarrollador de modelos y el modelo que tenga en cuenta cada escenario en la alineación de los LLMs. En este artículo, argumentamos que mejorar la alineación de los LLMs requiere incorporar ideas de los marcos de alineación social, incluyendo la alineación social, económica y contractual, y discutimos posibles soluciones extraídas de estos dominios. Dado el papel de la incertidumbre dentro de los marcos de alineación social, investigamos cómo se manifiesta en la alineación de los LLMs. Concluimos nuestra discusión ofreciendo una visión alternativa sobre la alineación de los LLMs, enmarcando la naturaleza subespecificada de sus objetivos como una oportunidad en lugar de perfeccionar su especificación. Más allá de las mejoras técnicas en la alineación de los LLMs, discutimos la necesidad de diseños de interfaces de alineación participativa.
English
Recent progress in large language models (LLMs) has focused on producing responses that meet human expectations and align with shared values - a process coined alignment. However, aligning LLMs remains challenging due to the inherent disconnect between the complexity of human values and the narrow nature of the technological approaches designed to address them. Current alignment methods often lead to misspecified objectives, reflecting the broader issue of incomplete contracts, the impracticality of specifying a contract between a model developer, and the model that accounts for every scenario in LLM alignment. In this paper, we argue that improving LLM alignment requires incorporating insights from societal alignment frameworks, including social, economic, and contractual alignment, and discuss potential solutions drawn from these domains. Given the role of uncertainty within societal alignment frameworks, we then investigate how it manifests in LLM alignment. We end our discussion by offering an alternative view on LLM alignment, framing the underspecified nature of its objectives as an opportunity rather than perfect their specification. Beyond technical improvements in LLM alignment, we discuss the need for participatory alignment interface designs.

Summary

AI-Generated Summary

PDF172March 5, 2025