GTAlign: Allineamento Basato sulla Teoria dei Giochi degli Assistenti LLM per il Benessere Reciproco

Abstract

I Large Language Model (LLM) hanno compiuto progressi significativi nel ragionamento, ma talvolta producono risposte subottimali per gli utenti in compiti come la scrittura, la ricerca di informazioni o la fornitura di indicazioni pratiche. Le pratiche convenzionali di allineamento presuppongono generalmente che massimizzare la ricompensa del modello equivalga a massimizzare il benessere dell'utente, ma questa ipotesi spesso fallisce nella pratica: i modelli possono chiarire eccessivamente o generare ragionamenti troppo prolissi quando gli utenti preferiscono risposte concise. Tali comportamenti ricordano il dilemma del prigioniero, dove scelte razionali individualmente portano a risultati socialmente subottimali. La sfida fondamentale è la mancanza di un meccanismo decisionale basato su principi che benefici reciprocamente sia il LLM che l'utente. Proponiamo il Game-Theoretic Alignment (GTAlign), un framework di allineamento che integra il processo decisionale basato sulla teoria dei giochi sia nel ragionamento che nell'addestramento. Durante il ragionamento, il modello tratta esplicitamente l'interazione utente-LLM come un gioco strategico: costruisce matrici di payoff all'interno della sua catena di ragionamento per stimare il benessere sia per sé stesso che per l'utente, e poi seleziona azioni reciprocamente vantaggiose. Durante l'addestramento, introduciamo una ricompensa di benessere reciproco che rafforza le risposte cooperative, allineando il comportamento del modello con risultati socialmente efficienti. Inoltre, introduciamo una tecnica di inferenza che sfrutta il ragionamento basato sulla teoria dei giochi per adattare dinamicamente la risposta del LLM quando cambiano le politiche di prezzo del servizio LLM. Esperimenti estensivi dimostrano che GTAlign migliora sostanzialmente l'efficienza del ragionamento, la qualità delle risposte e il benessere reciproco rispetto ai baseline in una vasta gamma di compiti. Il codice è disponibile su https://github.com/ulab-uiuc/GTAlign.

English

Large Language Models (LLMs) have achieved remarkable progress in reasoning, yet sometimes produce responses that are suboptimal for users in tasks such as writing, information seeking, or providing practical guidance. Conventional alignment practices typically assume that maximizing model reward also maximizes user welfare, but this assumption frequently fails in practice: models may over-clarify or generate overly verbose reasoning when users prefer concise answers. Such behaviors resemble the prisoner's dilemma, where individually rational choices lead to socially suboptimal outcomes. The fundamental challenge is the lack of a principled decision making mechanism that mutually benefits both the LLM and the user. We propose Game-Theoretic Alignment (GTAlign), an alignment framework that integrates game-theoretic decision making into both reasoning and training. During reasoning, the model explicitly treats user-LLM interaction as a strategic game: it constructs payoff matrices within its reasoning chain to estimate welfare for both itself and the user, and then selects actions that are mutually beneficial. During training, we introduce a mutual welfare reward that reinforces cooperative responses, aligning model behavior with socially efficient outcomes. In addition, we introduce an inference technique that leverages game-theoretic reasoning to dynamically adapt LLM's response when pricing policies of LLM service change. Extensive experiments demonstrate that GTAlign substantially improves reasoning efficiency, answer quality, and mutual welfare compared to baselines across diverse tasks. The code is available at https://github.com/ulab-uiuc/GTAlign .

GTAlign: Allineamento Basato sulla Teoria dei Giochi degli Assistenti LLM per il Benessere Reciproco

GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

Abstract

Support