GTAlign: Game-theoretische Afstemming van LLM-assistenten voor Wederzijds Welzijn

Samenvatting

Grote Taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in redeneren, maar produceren soms reacties die suboptimaal zijn voor gebruikers bij taken zoals schrijven, informatie zoeken of praktische begeleiding bieden. Conventionele afstemmingspraktijken gaan er doorgaans van uit dat het maximaliseren van de beloning van het model ook het gebruikerswelzijn maximaliseert, maar deze aanname faalt vaak in de praktijk: modellen kunnen overmatig verduidelijken of overdreven uitgebreide redeneringen genereren wanneer gebruikers liever beknopte antwoorden hebben. Dergelijk gedrag lijkt op het gevangenendilemma, waarbij individueel rationele keuzes leiden tot sociaal suboptimale uitkomsten. De fundamentele uitdaging is het ontbreken van een principieel besluitvormingsmechanisme dat zowel het LLM als de gebruiker wederzijds ten goede komt. Wij stellen Game-Theoretic Alignment (GTAlign) voor, een afstemmingsraamwerk dat speltheoretische besluitvorming integreert in zowel redeneren als training. Tijdens het redeneren behandelt het model de interactie tussen gebruiker en LLM expliciet als een strategisch spel: het construeert uitbetalingsmatrices binnen zijn redeneerketen om het welzijn voor zowel zichzelf als de gebruiker te schatten, en selecteert vervolgens acties die wederzijds voordelig zijn. Tijdens de training introduceren we een wederzijds welzijnsbeloning die coöperatieve reacties versterkt, waardoor het gedrag van het model wordt afgestemd op sociaal efficiënte uitkomsten. Daarnaast introduceren we een inferentietechniek die gebruikmaakt van speltheoretisch redeneren om de reactie van het LLM dynamisch aan te passen wanneer prijsbeleid van de LLM-dienst verandert. Uitgebreide experimenten tonen aan dat GTAlign de redeneerefficiëntie, antwoordkwaliteit en wederzijds welzijn aanzienlijk verbetert in vergelijking met baseline-methoden bij diverse taken. De code is beschikbaar op https://github.com/ulab-uiuc/GTAlign.

English

Large Language Models (LLMs) have achieved remarkable progress in reasoning, yet sometimes produce responses that are suboptimal for users in tasks such as writing, information seeking, or providing practical guidance. Conventional alignment practices typically assume that maximizing model reward also maximizes user welfare, but this assumption frequently fails in practice: models may over-clarify or generate overly verbose reasoning when users prefer concise answers. Such behaviors resemble the prisoner's dilemma, where individually rational choices lead to socially suboptimal outcomes. The fundamental challenge is the lack of a principled decision making mechanism that mutually benefits both the LLM and the user. We propose Game-Theoretic Alignment (GTAlign), an alignment framework that integrates game-theoretic decision making into both reasoning and training. During reasoning, the model explicitly treats user-LLM interaction as a strategic game: it constructs payoff matrices within its reasoning chain to estimate welfare for both itself and the user, and then selects actions that are mutually beneficial. During training, we introduce a mutual welfare reward that reinforces cooperative responses, aligning model behavior with socially efficient outcomes. In addition, we introduce an inference technique that leverages game-theoretic reasoning to dynamically adapt LLM's response when pricing policies of LLM service change. Extensive experiments demonstrate that GTAlign substantially improves reasoning efficiency, answer quality, and mutual welfare compared to baselines across diverse tasks. The code is available at https://github.com/ulab-uiuc/GTAlign .

GTAlign: Game-theoretische Afstemming van LLM-assistenten voor Wederzijds Welzijn

GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

Samenvatting

Support