GTAlign: Spieltheoretische Ausrichtung von LLM-Assistenten für gegenseitiges Wohlergehen
GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare
October 10, 2025
papers.authors: Siqi Zhu, David Zhang, Pedro Cisneros-Velarde, Jiaxuan You
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte im Bereich des logischen Denkens erzielt, erzeugen jedoch manchmal Antworten, die für Benutzer in Aufgaben wie dem Verfassen von Texten, der Informationssuche oder der Bereitstellung praktischer Anleitungen suboptimal sind. Herkömmliche Alignment-Praktiken gehen typischerweise davon aus, dass die Maximierung der Modellbelohnung auch das Wohl der Benutzer maximiert, doch diese Annahme scheitert in der Praxis häufig: Modelle können übermäßig erklären oder übermäßig ausführliche Begründungen liefern, wenn Benutzer prägnante Antworten bevorzugen. Solche Verhaltensweisen ähneln dem Gefangenendilemma, bei dem individuell rationale Entscheidungen zu gesellschaftlich suboptimalen Ergebnissen führen. Die grundlegende Herausforderung besteht in dem Fehlen eines prinzipiellen Entscheidungsmechanismus, der sowohl dem LLM als auch dem Benutzer gegenseitigen Nutzen bringt. Wir schlagen Game-Theoretic Alignment (GTAlign) vor, ein Alignment-Framework, das spieltheoretische Entscheidungsfindung sowohl in das logische Denken als auch in das Training integriert. Während des logischen Denkens behandelt das Modell die Interaktion zwischen Benutzer und LLM explizit als strategisches Spiel: Es konstruiert Auszahlungsmatrizen innerhalb seiner Denkkette, um den Nutzen sowohl für sich selbst als auch für den Benutzer abzuschätzen, und wählt dann Handlungen aus, die gegenseitig vorteilhaft sind. Während des Trainings führen wir eine gegenseitige Wohlfahrtsbelohnung ein, die kooperative Antworten verstärkt und das Modellverhalten mit gesellschaftlich effizienten Ergebnissen in Einklang bringt. Darüber hinaus führen wir eine Inferenztechnik ein, die spieltheoretisches Denken nutzt, um die Antwort des LLMs dynamisch anzupassen, wenn sich die Preispolitiken des LLM-Dienstes ändern. Umfangreiche Experimente zeigen, dass GTAlign die Effizienz des logischen Denkens, die Qualität der Antworten und den gegenseitigen Nutzen im Vergleich zu Baseline-Modellen bei verschiedenen Aufgaben erheblich verbessert. Der Code ist verfügbar unter https://github.com/ulab-uiuc/GTAlign.
English
Large Language Models (LLMs) have achieved remarkable progress in reasoning,
yet sometimes produce responses that are suboptimal for users in tasks such as
writing, information seeking, or providing practical guidance. Conventional
alignment practices typically assume that maximizing model reward also
maximizes user welfare, but this assumption frequently fails in practice:
models may over-clarify or generate overly verbose reasoning when users prefer
concise answers. Such behaviors resemble the prisoner's dilemma, where
individually rational choices lead to socially suboptimal outcomes. The
fundamental challenge is the lack of a principled decision making mechanism
that mutually benefits both the LLM and the user. We propose Game-Theoretic
Alignment (GTAlign), an alignment framework that integrates game-theoretic
decision making into both reasoning and training. During reasoning, the model
explicitly treats user-LLM interaction as a strategic game: it constructs
payoff matrices within its reasoning chain to estimate welfare for both itself
and the user, and then selects actions that are mutually beneficial. During
training, we introduce a mutual welfare reward that reinforces cooperative
responses, aligning model behavior with socially efficient outcomes. In
addition, we introduce an inference technique that leverages game-theoretic
reasoning to dynamically adapt LLM's response when pricing policies of LLM
service change. Extensive experiments demonstrate that GTAlign substantially
improves reasoning efficiency, answer quality, and mutual welfare compared to
baselines across diverse tasks. The code is available at
https://github.com/ulab-uiuc/GTAlign .