GTAlign : Alignement par Théorie des Jeux des Assistants LLM pour un Bien-Être Mutuel
GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare
October 10, 2025
papers.authors: Siqi Zhu, David Zhang, Pedro Cisneros-Velarde, Jiaxuan You
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont réalisé des progrès remarquables en matière de raisonnement, mais produisent parfois des réponses sous-optimales pour les utilisateurs dans des tâches telles que la rédaction, la recherche d'informations ou la fourniture de conseils pratiques. Les pratiques conventionnelles d'alignement supposent généralement que maximiser la récompense du modèle maximise également le bien-être de l'utilisateur, mais cette hypothèse échoue fréquemment en pratique : les modèles peuvent trop clarifier ou générer des raisonnements excessivement verbeux lorsque les utilisateurs préfèrent des réponses concises. Ces comportements ressemblent au dilemme du prisonnier, où des choix individuellement rationnels conduisent à des résultats socialement sous-optimaux. Le défi fondamental est l'absence d'un mécanisme de prise de décision principiel qui profite mutuellement à la fois au LLM et à l'utilisateur. Nous proposons l'Alignement Théorique des Jeux (GTAlign), un cadre d'alignement qui intègre la prise de décision basée sur la théorie des jeux dans le raisonnement et l'entraînement. Pendant le raisonnement, le modèle traite explicitement l'interaction utilisateur-LLM comme un jeu stratégique : il construit des matrices de gains dans sa chaîne de raisonnement pour estimer le bien-être à la fois pour lui-même et pour l'utilisateur, puis sélectionne des actions mutuellement bénéfiques. Pendant l'entraînement, nous introduisons une récompense de bien-être mutuel qui renforce les réponses coopératives, alignant ainsi le comportement du modèle sur des résultats socialement efficaces. De plus, nous introduisons une technique d'inférence qui exploite le raisonnement théorique des jeux pour adapter dynamiquement la réponse du LLM lorsque les politiques de tarification des services LLM changent. Des expériences approfondies démontrent que GTAlign améliore considérablement l'efficacité du raisonnement, la qualité des réponses et le bien-être mutuel par rapport aux méthodes de référence dans diverses tâches. Le code est disponible à l'adresse https://github.com/ulab-uiuc/GTAlign.
English
Large Language Models (LLMs) have achieved remarkable progress in reasoning,
yet sometimes produce responses that are suboptimal for users in tasks such as
writing, information seeking, or providing practical guidance. Conventional
alignment practices typically assume that maximizing model reward also
maximizes user welfare, but this assumption frequently fails in practice:
models may over-clarify or generate overly verbose reasoning when users prefer
concise answers. Such behaviors resemble the prisoner's dilemma, where
individually rational choices lead to socially suboptimal outcomes. The
fundamental challenge is the lack of a principled decision making mechanism
that mutually benefits both the LLM and the user. We propose Game-Theoretic
Alignment (GTAlign), an alignment framework that integrates game-theoretic
decision making into both reasoning and training. During reasoning, the model
explicitly treats user-LLM interaction as a strategic game: it constructs
payoff matrices within its reasoning chain to estimate welfare for both itself
and the user, and then selects actions that are mutually beneficial. During
training, we introduce a mutual welfare reward that reinforces cooperative
responses, aligning model behavior with socially efficient outcomes. In
addition, we introduce an inference technique that leverages game-theoretic
reasoning to dynamically adapt LLM's response when pricing policies of LLM
service change. Extensive experiments demonstrate that GTAlign substantially
improves reasoning efficiency, answer quality, and mutual welfare compared to
baselines across diverse tasks. The code is available at
https://github.com/ulab-uiuc/GTAlign .