ChatPaper.aiChatPaper

Maatschappelijke Afstemmingskaders kunnen de Afstemming van Taalmodellen Verbeteren

Societal Alignment Frameworks Can Improve LLM Alignment

February 27, 2025
Auteurs: Karolina Stańczak, Nicholas Meade, Mehar Bhatia, Hattie Zhou, Konstantin Böttinger, Jeremy Barnes, Jason Stanley, Jessica Montgomery, Richard Zemel, Nicolas Papernot, Nicolas Chapados, Denis Therien, Timothy P. Lillicrap, Ana Marasović, Sylvie Delacroix, Gillian K. Hadfield, Siva Reddy
cs.AI

Samenvatting

Recente vooruitgang in grote taalmodellen (LLMs) heeft zich gericht op het produceren van reacties die voldoen aan menselijke verwachtingen en aansluiten bij gedeelde waarden – een proces dat alignment wordt genoemd. Het afstemmen van LLMs blijft echter een uitdaging vanwege de inherente kloof tussen de complexiteit van menselijke waarden en de beperkte aard van de technologische benaderingen die zijn ontworpen om deze aan te pakken. Huidige alignmentmethoden leiden vaak tot verkeerd gespecificeerde doelstellingen, wat het bredere probleem weerspiegelt van onvolledige contracten en de onpraktische haalbaarheid van het specificeren van een contract tussen een modelontwikkelaar en het model dat rekening houdt met elk scenario in LLM-alignment. In dit artikel beargumenteren we dat het verbeteren van LLM-alignment inzichten vereist uit maatschappelijke alignmentkaders, waaronder sociale, economische en contractuele alignment, en bespreken we mogelijke oplossingen die uit deze domeinen zijn getrokken. Gezien de rol van onzekerheid binnen maatschappelijke alignmentkaders, onderzoeken we vervolgens hoe dit zich manifesteert in LLM-alignment. We sluiten onze discussie af met een alternatieve kijk op LLM-alignment, waarbij we de onvolledig gespecificeerde aard van de doelstellingen beschouwen als een kans in plaats van een perfecte specificatie. Naast technische verbeteringen in LLM-alignment bespreken we de noodzaak van participatieve alignment-interfaceontwerpen.
English
Recent progress in large language models (LLMs) has focused on producing responses that meet human expectations and align with shared values - a process coined alignment. However, aligning LLMs remains challenging due to the inherent disconnect between the complexity of human values and the narrow nature of the technological approaches designed to address them. Current alignment methods often lead to misspecified objectives, reflecting the broader issue of incomplete contracts, the impracticality of specifying a contract between a model developer, and the model that accounts for every scenario in LLM alignment. In this paper, we argue that improving LLM alignment requires incorporating insights from societal alignment frameworks, including social, economic, and contractual alignment, and discuss potential solutions drawn from these domains. Given the role of uncertainty within societal alignment frameworks, we then investigate how it manifests in LLM alignment. We end our discussion by offering an alternative view on LLM alignment, framing the underspecified nature of its objectives as an opportunity rather than perfect their specification. Beyond technical improvements in LLM alignment, we discuss the need for participatory alignment interface designs.

Summary

AI-Generated Summary

PDF172March 5, 2025