GTAlign : Alignement par Théorie des Jeux des Assistants LLM pour un Bien-Être Mutuel

papers.abstract

Les modèles de langage de grande taille (LLMs) ont réalisé des progrès remarquables en matière de raisonnement, mais produisent parfois des réponses sous-optimales pour les utilisateurs dans des tâches telles que la rédaction, la recherche d'informations ou la fourniture de conseils pratiques. Les pratiques conventionnelles d'alignement supposent généralement que maximiser la récompense du modèle maximise également le bien-être de l'utilisateur, mais cette hypothèse échoue fréquemment en pratique : les modèles peuvent trop clarifier ou générer des raisonnements excessivement verbeux lorsque les utilisateurs préfèrent des réponses concises. Ces comportements ressemblent au dilemme du prisonnier, où des choix individuellement rationnels conduisent à des résultats socialement sous-optimaux. Le défi fondamental est l'absence d'un mécanisme de prise de décision principiel qui profite mutuellement à la fois au LLM et à l'utilisateur. Nous proposons l'Alignement Théorique des Jeux (GTAlign), un cadre d'alignement qui intègre la prise de décision basée sur la théorie des jeux dans le raisonnement et l'entraînement. Pendant le raisonnement, le modèle traite explicitement l'interaction utilisateur-LLM comme un jeu stratégique : il construit des matrices de gains dans sa chaîne de raisonnement pour estimer le bien-être à la fois pour lui-même et pour l'utilisateur, puis sélectionne des actions mutuellement bénéfiques. Pendant l'entraînement, nous introduisons une récompense de bien-être mutuel qui renforce les réponses coopératives, alignant ainsi le comportement du modèle sur des résultats socialement efficaces. De plus, nous introduisons une technique d'inférence qui exploite le raisonnement théorique des jeux pour adapter dynamiquement la réponse du LLM lorsque les politiques de tarification des services LLM changent. Des expériences approfondies démontrent que GTAlign améliore considérablement l'efficacité du raisonnement, la qualité des réponses et le bien-être mutuel par rapport aux méthodes de référence dans diverses tâches. Le code est disponible à l'adresse https://github.com/ulab-uiuc/GTAlign.

English

Large Language Models (LLMs) have achieved remarkable progress in reasoning, yet sometimes produce responses that are suboptimal for users in tasks such as writing, information seeking, or providing practical guidance. Conventional alignment practices typically assume that maximizing model reward also maximizes user welfare, but this assumption frequently fails in practice: models may over-clarify or generate overly verbose reasoning when users prefer concise answers. Such behaviors resemble the prisoner's dilemma, where individually rational choices lead to socially suboptimal outcomes. The fundamental challenge is the lack of a principled decision making mechanism that mutually benefits both the LLM and the user. We propose Game-Theoretic Alignment (GTAlign), an alignment framework that integrates game-theoretic decision making into both reasoning and training. During reasoning, the model explicitly treats user-LLM interaction as a strategic game: it constructs payoff matrices within its reasoning chain to estimate welfare for both itself and the user, and then selects actions that are mutually beneficial. During training, we introduce a mutual welfare reward that reinforces cooperative responses, aligning model behavior with socially efficient outcomes. In addition, we introduce an inference technique that leverages game-theoretic reasoning to dynamically adapt LLM's response when pricing policies of LLM service change. Extensive experiments demonstrate that GTAlign substantially improves reasoning efficiency, answer quality, and mutual welfare compared to baselines across diverse tasks. The code is available at https://github.com/ulab-uiuc/GTAlign .

GTAlign : Alignement par Théorie des Jeux des Assistants LLM pour un Bien-Être Mutuel

GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

papers.abstract

Support