GTAlign: Allineamento Basato sulla Teoria dei Giochi degli Assistenti LLM per il Benessere Reciproco
GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare
October 10, 2025
Autori: Siqi Zhu, David Zhang, Pedro Cisneros-Velarde, Jiaxuan You
cs.AI
Abstract
I Large Language Model (LLM) hanno compiuto progressi significativi nel ragionamento, ma talvolta producono risposte subottimali per gli utenti in compiti come la scrittura, la ricerca di informazioni o la fornitura di indicazioni pratiche. Le pratiche convenzionali di allineamento presuppongono generalmente che massimizzare la ricompensa del modello equivalga a massimizzare il benessere dell'utente, ma questa ipotesi spesso fallisce nella pratica: i modelli possono chiarire eccessivamente o generare ragionamenti troppo prolissi quando gli utenti preferiscono risposte concise. Tali comportamenti ricordano il dilemma del prigioniero, dove scelte razionali individualmente portano a risultati socialmente subottimali. La sfida fondamentale è la mancanza di un meccanismo decisionale basato su principi che benefici reciprocamente sia il LLM che l'utente. Proponiamo il Game-Theoretic Alignment (GTAlign), un framework di allineamento che integra il processo decisionale basato sulla teoria dei giochi sia nel ragionamento che nell'addestramento. Durante il ragionamento, il modello tratta esplicitamente l'interazione utente-LLM come un gioco strategico: costruisce matrici di payoff all'interno della sua catena di ragionamento per stimare il benessere sia per sé stesso che per l'utente, e poi seleziona azioni reciprocamente vantaggiose. Durante l'addestramento, introduciamo una ricompensa di benessere reciproco che rafforza le risposte cooperative, allineando il comportamento del modello con risultati socialmente efficienti. Inoltre, introduciamo una tecnica di inferenza che sfrutta il ragionamento basato sulla teoria dei giochi per adattare dinamicamente la risposta del LLM quando cambiano le politiche di prezzo del servizio LLM. Esperimenti estensivi dimostrano che GTAlign migliora sostanzialmente l'efficienza del ragionamento, la qualità delle risposte e il benessere reciproco rispetto ai baseline in una vasta gamma di compiti. Il codice è disponibile su https://github.com/ulab-uiuc/GTAlign.
English
Large Language Models (LLMs) have achieved remarkable progress in reasoning,
yet sometimes produce responses that are suboptimal for users in tasks such as
writing, information seeking, or providing practical guidance. Conventional
alignment practices typically assume that maximizing model reward also
maximizes user welfare, but this assumption frequently fails in practice:
models may over-clarify or generate overly verbose reasoning when users prefer
concise answers. Such behaviors resemble the prisoner's dilemma, where
individually rational choices lead to socially suboptimal outcomes. The
fundamental challenge is the lack of a principled decision making mechanism
that mutually benefits both the LLM and the user. We propose Game-Theoretic
Alignment (GTAlign), an alignment framework that integrates game-theoretic
decision making into both reasoning and training. During reasoning, the model
explicitly treats user-LLM interaction as a strategic game: it constructs
payoff matrices within its reasoning chain to estimate welfare for both itself
and the user, and then selects actions that are mutually beneficial. During
training, we introduce a mutual welfare reward that reinforces cooperative
responses, aligning model behavior with socially efficient outcomes. In
addition, we introduce an inference technique that leverages game-theoretic
reasoning to dynamically adapt LLM's response when pricing policies of LLM
service change. Extensive experiments demonstrate that GTAlign substantially
improves reasoning efficiency, answer quality, and mutual welfare compared to
baselines across diverse tasks. The code is available at
https://github.com/ulab-uiuc/GTAlign .