GTAlign: Alinhamento Baseado em Teoria dos Jogos de Assistentes de LLM para Bem-Estar Mútuo
GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare
October 10, 2025
Autores: Siqi Zhu, David Zhang, Pedro Cisneros-Velarde, Jiaxuan You
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram progressos notáveis em raciocínio, mas às vezes produzem respostas que são subótimas para os usuários em tarefas como escrita, busca de informações ou fornecimento de orientações práticas. As práticas convencionais de alinhamento geralmente assumem que maximizar a recompensa do modelo também maximiza o bem-estar do usuário, mas essa suposição frequentemente falha na prática: os modelos podem superexplicar ou gerar raciocínios excessivamente verbosos quando os usuários preferem respostas concisas. Tais comportamentos se assemelham ao dilema do prisioneiro, onde escolhas individualmente racionais levam a resultados socialmente subótimas. O desafio fundamental é a falta de um mecanismo de tomada de decisão fundamentado que beneficie mutuamente tanto o LLM quanto o usuário. Propomos o Alinhamento Teórico dos Jogos (GTAlign), uma estrutura de alinhamento que integra a tomada de decisão baseada na teoria dos jogos tanto no raciocínio quanto no treinamento. Durante o raciocínio, o modelo trata explicitamente a interação usuário-LLM como um jogo estratégico: ele constrói matrizes de payoff em sua cadeia de raciocínio para estimar o bem-estar tanto para si mesmo quanto para o usuário e, em seguida, seleciona ações que são mutuamente benéficas. Durante o treinamento, introduzimos uma recompensa de bem-estar mútuo que reforça respostas cooperativas, alinhando o comportamento do modelo com resultados socialmente eficientes. Além disso, introduzimos uma técnica de inferência que aproveita o raciocínio teórico dos jogos para adaptar dinamicamente a resposta do LLM quando as políticas de precificação do serviço de LLM mudam. Experimentos extensivos demonstram que o GTAlign melhora substancialmente a eficiência do raciocínio, a qualidade das respostas e o bem-estar mútuo em comparação com as abordagens de referência em diversas tarefas. O código está disponível em https://github.com/ulab-uiuc/GTAlign.
English
Large Language Models (LLMs) have achieved remarkable progress in reasoning,
yet sometimes produce responses that are suboptimal for users in tasks such as
writing, information seeking, or providing practical guidance. Conventional
alignment practices typically assume that maximizing model reward also
maximizes user welfare, but this assumption frequently fails in practice:
models may over-clarify or generate overly verbose reasoning when users prefer
concise answers. Such behaviors resemble the prisoner's dilemma, where
individually rational choices lead to socially suboptimal outcomes. The
fundamental challenge is the lack of a principled decision making mechanism
that mutually benefits both the LLM and the user. We propose Game-Theoretic
Alignment (GTAlign), an alignment framework that integrates game-theoretic
decision making into both reasoning and training. During reasoning, the model
explicitly treats user-LLM interaction as a strategic game: it constructs
payoff matrices within its reasoning chain to estimate welfare for both itself
and the user, and then selects actions that are mutually beneficial. During
training, we introduce a mutual welfare reward that reinforces cooperative
responses, aligning model behavior with socially efficient outcomes. In
addition, we introduce an inference technique that leverages game-theoretic
reasoning to dynamically adapt LLM's response when pricing policies of LLM
service change. Extensive experiments demonstrate that GTAlign substantially
improves reasoning efficiency, answer quality, and mutual welfare compared to
baselines across diverse tasks. The code is available at
https://github.com/ulab-uiuc/GTAlign .