Les cadres d'alignement sociétal peuvent améliorer l'alignement des modèles de langage de grande taille (LLM).
Societal Alignment Frameworks Can Improve LLM Alignment
February 27, 2025
Auteurs: Karolina Stańczak, Nicholas Meade, Mehar Bhatia, Hattie Zhou, Konstantin Böttinger, Jeremy Barnes, Jason Stanley, Jessica Montgomery, Richard Zemel, Nicolas Papernot, Nicolas Chapados, Denis Therien, Timothy P. Lillicrap, Ana Marasović, Sylvie Delacroix, Gillian K. Hadfield, Siva Reddy
cs.AI
Résumé
Les progrès récents dans les modèles de langage de grande taille (LLMs) se sont concentrés sur la production de réponses qui répondent aux attentes humaines et s'alignent sur les valeurs partagées - un processus appelé alignement. Cependant, aligner les LLMs reste un défi en raison du décalage inhérent entre la complexité des valeurs humaines et la nature étroite des approches technologiques conçues pour les aborder. Les méthodes d'alignement actuelles conduisent souvent à des objectifs mal spécifiés, reflétant le problème plus large des contrats incomplets, c'est-à-dire l'impossibilité pratique de spécifier un contrat entre un développeur de modèle et le modèle lui-même qui couvre chaque scénario dans l'alignement des LLMs. Dans cet article, nous soutenons que l'amélioration de l'alignement des LLMs nécessite d'intégrer des insights provenant des cadres d'alignement sociétal, y compris l'alignement social, économique et contractuel, et nous discutons des solutions potentielles tirées de ces domaines. Compte tenu du rôle de l'incertitude dans les cadres d'alignement sociétal, nous examinons ensuite comment elle se manifeste dans l'alignement des LLMs. Nous concluons notre discussion en proposant une vision alternative de l'alignement des LLMs, en considérant la nature sous-spécifiée de ses objectifs comme une opportunité plutôt que comme un défaut à corriger. Au-delà des améliorations techniques dans l'alignement des LLMs, nous discutons de la nécessité de concevoir des interfaces d'alignement participatives.
English
Recent progress in large language models (LLMs) has focused on producing
responses that meet human expectations and align with shared values - a process
coined alignment. However, aligning LLMs remains challenging due to the
inherent disconnect between the complexity of human values and the narrow
nature of the technological approaches designed to address them. Current
alignment methods often lead to misspecified objectives, reflecting the broader
issue of incomplete contracts, the impracticality of specifying a contract
between a model developer, and the model that accounts for every scenario in
LLM alignment. In this paper, we argue that improving LLM alignment requires
incorporating insights from societal alignment frameworks, including social,
economic, and contractual alignment, and discuss potential solutions drawn from
these domains. Given the role of uncertainty within societal alignment
frameworks, we then investigate how it manifests in LLM alignment. We end our
discussion by offering an alternative view on LLM alignment, framing the
underspecified nature of its objectives as an opportunity rather than perfect
their specification. Beyond technical improvements in LLM alignment, we discuss
the need for participatory alignment interface designs.Summary
AI-Generated Summary