ChatPaper.aiChatPaper

I Framework di Allineamento Societale Possono Migliorare l'Allineamento degli LLM

Societal Alignment Frameworks Can Improve LLM Alignment

February 27, 2025
Autori: Karolina Stańczak, Nicholas Meade, Mehar Bhatia, Hattie Zhou, Konstantin Böttinger, Jeremy Barnes, Jason Stanley, Jessica Montgomery, Richard Zemel, Nicolas Papernot, Nicolas Chapados, Denis Therien, Timothy P. Lillicrap, Ana Marasović, Sylvie Delacroix, Gillian K. Hadfield, Siva Reddy
cs.AI

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) si sono concentrati sulla produzione di risposte che soddisfino le aspettative umane e siano in linea con valori condivisi, un processo denominato allineamento. Tuttavia, allineare gli LLM rimane una sfida a causa del divario intrinseco tra la complessità dei valori umani e la natura ristretta degli approcci tecnologici progettati per affrontarli. I metodi di allineamento attuali spesso portano a obiettivi mal specificati, riflettendo il problema più ampio dei contratti incompleti, ovvero l'impraticabilità di specificare un contratto tra uno sviluppatore di modelli e il modello stesso che tenga conto di ogni scenario nell'allineamento degli LLM. In questo articolo, sosteniamo che migliorare l'allineamento degli LLM richiede l'integrazione di intuizioni provenienti da framework di allineamento sociale, inclusi l'allineamento sociale, economico e contrattuale, e discutiamo potenziali soluzioni tratte da questi ambiti. Considerando il ruolo dell'incertezza all'interno dei framework di allineamento sociale, esaminiamo poi come essa si manifesti nell'allineamento degli LLM. Concludiamo la nostra discussione offrendo una visione alternativa sull'allineamento degli LLM, inquadrando la natura sottospecificata dei suoi obiettivi come un'opportunità piuttosto che come un difetto da correggere. Oltre ai miglioramenti tecnici nell'allineamento degli LLM, discutiamo la necessità di progettare interfacce di allineamento partecipativo.
English
Recent progress in large language models (LLMs) has focused on producing responses that meet human expectations and align with shared values - a process coined alignment. However, aligning LLMs remains challenging due to the inherent disconnect between the complexity of human values and the narrow nature of the technological approaches designed to address them. Current alignment methods often lead to misspecified objectives, reflecting the broader issue of incomplete contracts, the impracticality of specifying a contract between a model developer, and the model that accounts for every scenario in LLM alignment. In this paper, we argue that improving LLM alignment requires incorporating insights from societal alignment frameworks, including social, economic, and contractual alignment, and discuss potential solutions drawn from these domains. Given the role of uncertainty within societal alignment frameworks, we then investigate how it manifests in LLM alignment. We end our discussion by offering an alternative view on LLM alignment, framing the underspecified nature of its objectives as an opportunity rather than perfect their specification. Beyond technical improvements in LLM alignment, we discuss the need for participatory alignment interface designs.

Summary

AI-Generated Summary

PDF172March 5, 2025