ChatPaper.aiChatPaper

사회적 정렬 프레임워크는 LLM 정렬을 개선할 수 있다.

Societal Alignment Frameworks Can Improve LLM Alignment

February 27, 2025
저자: Karolina Stańczak, Nicholas Meade, Mehar Bhatia, Hattie Zhou, Konstantin Böttinger, Jeremy Barnes, Jason Stanley, Jessica Montgomery, Richard Zemel, Nicolas Papernot, Nicolas Chapados, Denis Therien, Timothy P. Lillicrap, Ana Marasović, Sylvie Delacroix, Gillian K. Hadfield, Siva Reddy
cs.AI

초록

대형 언어 모델(LLM)의 최근 발전은 인간의 기대를 충족하고 공유된 가치와 일치하는 응답을 생성하는 데 초점을 맞추고 있으며, 이 과정은 '얼라인먼트(alignment)'로 불립니다. 그러나 인간 가치의 복잡성과 이를 해결하기 위해 설계된 기술적 접근 방식의 한계 사이의 근본적인 괴리로 인해 LLM을 얼라인먼트하는 것은 여전히 어려운 과제로 남아 있습니다. 현재의 얼라인먼트 방법은 종종 잘못 지정된 목표를 초래하는데, 이는 모델 개발자와 모델 간의 모든 시나리오를 고려한 계약을 명시하는 것이 불가능하다는 불완전한 계약 문제를 반영합니다. 본 논문에서는 LLM 얼라인먼트를 개선하기 위해 사회적, 경제적, 계약적 얼라인먼트를 포함한 사회적 얼라인먼트 프레임워크의 통찰을 통합해야 한다고 주장하며, 이러한 영역에서 도출된 잠재적 해결책을 논의합니다. 사회적 얼라인먼트 프레임워크 내에서 불확실성의 역할을 고려할 때, 우리는 이러한 불확실성이 LLM 얼라인먼트에서 어떻게 나타나는지 조사합니다. 마지막으로, 우리는 LLM 얼라인먼트의 목표가 명확히 정의되지 않은 특성을 완벽하게 명시하려는 것보다는 기회로 삼는 대안적 관점을 제시합니다. LLM 얼라인먼트의 기술적 개선을 넘어, 우리는 참여형 얼라인먼트 인터페이스 설계의 필요성을 논의합니다.
English
Recent progress in large language models (LLMs) has focused on producing responses that meet human expectations and align with shared values - a process coined alignment. However, aligning LLMs remains challenging due to the inherent disconnect between the complexity of human values and the narrow nature of the technological approaches designed to address them. Current alignment methods often lead to misspecified objectives, reflecting the broader issue of incomplete contracts, the impracticality of specifying a contract between a model developer, and the model that accounts for every scenario in LLM alignment. In this paper, we argue that improving LLM alignment requires incorporating insights from societal alignment frameworks, including social, economic, and contractual alignment, and discuss potential solutions drawn from these domains. Given the role of uncertainty within societal alignment frameworks, we then investigate how it manifests in LLM alignment. We end our discussion by offering an alternative view on LLM alignment, framing the underspecified nature of its objectives as an opportunity rather than perfect their specification. Beyond technical improvements in LLM alignment, we discuss the need for participatory alignment interface designs.

Summary

AI-Generated Summary

PDF172March 5, 2025