GTAlign: Game-theoretische Afstemming van LLM-assistenten voor Wederzijds Welzijn
GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare
October 10, 2025
Auteurs: Siqi Zhu, David Zhang, Pedro Cisneros-Velarde, Jiaxuan You
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in redeneren, maar produceren soms reacties die suboptimaal zijn voor gebruikers bij taken zoals schrijven, informatie zoeken of praktische begeleiding bieden. Conventionele afstemmingspraktijken gaan er doorgaans van uit dat het maximaliseren van de beloning van het model ook het gebruikerswelzijn maximaliseert, maar deze aanname faalt vaak in de praktijk: modellen kunnen overmatig verduidelijken of overdreven uitgebreide redeneringen genereren wanneer gebruikers liever beknopte antwoorden hebben. Dergelijk gedrag lijkt op het gevangenendilemma, waarbij individueel rationele keuzes leiden tot sociaal suboptimale uitkomsten. De fundamentele uitdaging is het ontbreken van een principieel besluitvormingsmechanisme dat zowel het LLM als de gebruiker wederzijds ten goede komt. Wij stellen Game-Theoretic Alignment (GTAlign) voor, een afstemmingsraamwerk dat speltheoretische besluitvorming integreert in zowel redeneren als training. Tijdens het redeneren behandelt het model de interactie tussen gebruiker en LLM expliciet als een strategisch spel: het construeert uitbetalingsmatrices binnen zijn redeneerketen om het welzijn voor zowel zichzelf als de gebruiker te schatten, en selecteert vervolgens acties die wederzijds voordelig zijn. Tijdens de training introduceren we een wederzijds welzijnsbeloning die coöperatieve reacties versterkt, waardoor het gedrag van het model wordt afgestemd op sociaal efficiënte uitkomsten. Daarnaast introduceren we een inferentietechniek die gebruikmaakt van speltheoretisch redeneren om de reactie van het LLM dynamisch aan te passen wanneer prijsbeleid van de LLM-dienst verandert. Uitgebreide experimenten tonen aan dat GTAlign de redeneerefficiëntie, antwoordkwaliteit en wederzijds welzijn aanzienlijk verbetert in vergelijking met baseline-methoden bij diverse taken. De code is beschikbaar op https://github.com/ulab-uiuc/GTAlign.
English
Large Language Models (LLMs) have achieved remarkable progress in reasoning,
yet sometimes produce responses that are suboptimal for users in tasks such as
writing, information seeking, or providing practical guidance. Conventional
alignment practices typically assume that maximizing model reward also
maximizes user welfare, but this assumption frequently fails in practice:
models may over-clarify or generate overly verbose reasoning when users prefer
concise answers. Such behaviors resemble the prisoner's dilemma, where
individually rational choices lead to socially suboptimal outcomes. The
fundamental challenge is the lack of a principled decision making mechanism
that mutually benefits both the LLM and the user. We propose Game-Theoretic
Alignment (GTAlign), an alignment framework that integrates game-theoretic
decision making into both reasoning and training. During reasoning, the model
explicitly treats user-LLM interaction as a strategic game: it constructs
payoff matrices within its reasoning chain to estimate welfare for both itself
and the user, and then selects actions that are mutually beneficial. During
training, we introduce a mutual welfare reward that reinforces cooperative
responses, aligning model behavior with socially efficient outcomes. In
addition, we introduce an inference technique that leverages game-theoretic
reasoning to dynamically adapt LLM's response when pricing policies of LLM
service change. Extensive experiments demonstrate that GTAlign substantially
improves reasoning efficiency, answer quality, and mutual welfare compared to
baselines across diverse tasks. The code is available at
https://github.com/ulab-uiuc/GTAlign .