ChatPaper.aiChatPaper

GTAlign: 상호 복지를 위한 LLM 어시스턴트의 게임 이론적 정렬

GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

October 10, 2025
저자: Siqi Zhu, David Zhang, Pedro Cisneros-Velarde, Jiaxuan You
cs.AI

초록

대규모 언어 모델(LLM)은 추론 분야에서 놀라운 진전을 이루었지만, 글쓰기, 정보 탐색, 실질적인 지침 제공과 같은 작업에서 사용자에게 최적이 아닌 응답을 생성하는 경우가 있습니다. 기존의 정렬(alignment) 방식은 일반적으로 모델의 보상을 극대화하는 것이 사용자의 복지도 극대화한다고 가정하지만, 이 가정은 실제로 자주 실패합니다: 사용자가 간결한 답변을 선호할 때 모델이 지나치게 설명하거나 장황한 추론을 생성할 수 있습니다. 이러한 행동은 개별적으로는 합리적인 선택이 사회적으로는 최적이 아닌 결과를 초래하는 죄수의 딜레마와 유사합니다. 근본적인 문제는 LLM과 사용자 모두에게 이익이 되는 원칙적인 의사결정 메커니즘이 부족하다는 것입니다. 우리는 게임 이론적 의사결정을 추론과 훈련에 통합한 정렬 프레임워크인 게임 이론적 정렬(GTAlign)을 제안합니다. 추론 과정에서 모델은 사용자-LLM 상호작용을 명시적으로 전략적 게임으로 취급합니다: 모델은 추론 체인 내에서 보상 행렬을 구성하여 자신과 사용자 모두의 복지를 추정한 후 상호 이익이 되는 행동을 선택합니다. 훈련 과정에서는 협력적인 응답을 강화하는 상호 복지 보상을 도입하여 모델의 행동을 사회적으로 효율적인 결과와 일치시킵니다. 또한, LLM 서비스의 가격 정책이 변경될 때 게임 이론적 추론을 활용하여 LLM의 응답을 동적으로 조정하는 추론 기법을 소개합니다. 다양한 작업에 걸친 광범위한 실험을 통해 GTAlign이 기준 모델 대비 추론 효율성, 답변 품질, 상호 복지를 크게 개선함을 입증했습니다. 코드는 https://github.com/ulab-uiuc/GTAlign에서 확인할 수 있습니다.
English
Large Language Models (LLMs) have achieved remarkable progress in reasoning, yet sometimes produce responses that are suboptimal for users in tasks such as writing, information seeking, or providing practical guidance. Conventional alignment practices typically assume that maximizing model reward also maximizes user welfare, but this assumption frequently fails in practice: models may over-clarify or generate overly verbose reasoning when users prefer concise answers. Such behaviors resemble the prisoner's dilemma, where individually rational choices lead to socially suboptimal outcomes. The fundamental challenge is the lack of a principled decision making mechanism that mutually benefits both the LLM and the user. We propose Game-Theoretic Alignment (GTAlign), an alignment framework that integrates game-theoretic decision making into both reasoning and training. During reasoning, the model explicitly treats user-LLM interaction as a strategic game: it constructs payoff matrices within its reasoning chain to estimate welfare for both itself and the user, and then selects actions that are mutually beneficial. During training, we introduce a mutual welfare reward that reinforces cooperative responses, aligning model behavior with socially efficient outcomes. In addition, we introduce an inference technique that leverages game-theoretic reasoning to dynamically adapt LLM's response when pricing policies of LLM service change. Extensive experiments demonstrate that GTAlign substantially improves reasoning efficiency, answer quality, and mutual welfare compared to baselines across diverse tasks. The code is available at https://github.com/ulab-uiuc/GTAlign .
PDF23October 13, 2025