Gesellschaftliche Ausrichtungsrahmen können die Ausrichtung von LLMs verbessern.
Societal Alignment Frameworks Can Improve LLM Alignment
February 27, 2025
Autoren: Karolina Stańczak, Nicholas Meade, Mehar Bhatia, Hattie Zhou, Konstantin Böttinger, Jeremy Barnes, Jason Stanley, Jessica Montgomery, Richard Zemel, Nicolas Papernot, Nicolas Chapados, Denis Therien, Timothy P. Lillicrap, Ana Marasović, Sylvie Delacroix, Gillian K. Hadfield, Siva Reddy
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) konzentrieren sich darauf, Antworten zu erzeugen, die menschlichen Erwartungen entsprechen und mit gemeinsamen Werten übereinstimmen – ein Prozess, der als Alignment bezeichnet wird. Die Ausrichtung von LLMs bleibt jedoch aufgrund der inhärenten Diskrepanz zwischen der Komplexität menschlicher Werte und der begrenzten Natur der technologischen Ansätze, die zu ihrer Bewältigung entwickelt wurden, eine Herausforderung. Aktuelle Alignment-Methoden führen oft zu fehlspezifizierten Zielen, was das breitere Problem unvollständiger Verträge widerspiegelt – die Unpraktikabilität, einen Vertrag zwischen einem Modellentwickler und dem Modell zu spezifizieren, der jedes Szenario in der LLM-Ausrichtung berücksichtigt. In diesem Papier argumentieren wir, dass die Verbesserung der LLM-Ausrichtung die Einbeziehung von Erkenntnissen aus gesellschaftlichen Alignment-Rahmenwerken erfordert, einschließlich sozialer, wirtschaftlicher und vertraglicher Ausrichtung, und diskutieren potenzielle Lösungen aus diesen Bereichen. Angesichts der Rolle der Unsicherheit in gesellschaftlichen Alignment-Rahmenwerken untersuchen wir dann, wie sie sich in der LLM-Ausrichtung manifestiert. Wir schließen unsere Diskussion mit einem alternativen Blick auf die LLM-Ausrichtung ab, indem wir die unzureichend spezifizierte Natur ihrer Ziele als Chance anstelle einer perfekten Spezifikation betrachten. Neben technischen Verbesserungen in der LLM-Ausrichtung diskutieren wir die Notwendigkeit partizipativer Alignment-Schnittstellendesigns.
English
Recent progress in large language models (LLMs) has focused on producing
responses that meet human expectations and align with shared values - a process
coined alignment. However, aligning LLMs remains challenging due to the
inherent disconnect between the complexity of human values and the narrow
nature of the technological approaches designed to address them. Current
alignment methods often lead to misspecified objectives, reflecting the broader
issue of incomplete contracts, the impracticality of specifying a contract
between a model developer, and the model that accounts for every scenario in
LLM alignment. In this paper, we argue that improving LLM alignment requires
incorporating insights from societal alignment frameworks, including social,
economic, and contractual alignment, and discuss potential solutions drawn from
these domains. Given the role of uncertainty within societal alignment
frameworks, we then investigate how it manifests in LLM alignment. We end our
discussion by offering an alternative view on LLM alignment, framing the
underspecified nature of its objectives as an opportunity rather than perfect
their specification. Beyond technical improvements in LLM alignment, we discuss
the need for participatory alignment interface designs.Summary
AI-Generated Summary