ChatPaper.aiChatPaper

GTAlign: Alinhamento Baseado em Teoria dos Jogos de Assistentes de LLM para Bem-Estar Mútuo

GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

October 10, 2025
Autores: Siqi Zhu, David Zhang, Pedro Cisneros-Velarde, Jiaxuan You
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram progressos notáveis em raciocínio, mas às vezes produzem respostas que são subótimas para os usuários em tarefas como escrita, busca de informações ou fornecimento de orientações práticas. As práticas convencionais de alinhamento geralmente assumem que maximizar a recompensa do modelo também maximiza o bem-estar do usuário, mas essa suposição frequentemente falha na prática: os modelos podem superexplicar ou gerar raciocínios excessivamente verbosos quando os usuários preferem respostas concisas. Tais comportamentos se assemelham ao dilema do prisioneiro, onde escolhas individualmente racionais levam a resultados socialmente subótimas. O desafio fundamental é a falta de um mecanismo de tomada de decisão fundamentado que beneficie mutuamente tanto o LLM quanto o usuário. Propomos o Alinhamento Teórico dos Jogos (GTAlign), uma estrutura de alinhamento que integra a tomada de decisão baseada na teoria dos jogos tanto no raciocínio quanto no treinamento. Durante o raciocínio, o modelo trata explicitamente a interação usuário-LLM como um jogo estratégico: ele constrói matrizes de payoff em sua cadeia de raciocínio para estimar o bem-estar tanto para si mesmo quanto para o usuário e, em seguida, seleciona ações que são mutuamente benéficas. Durante o treinamento, introduzimos uma recompensa de bem-estar mútuo que reforça respostas cooperativas, alinhando o comportamento do modelo com resultados socialmente eficientes. Além disso, introduzimos uma técnica de inferência que aproveita o raciocínio teórico dos jogos para adaptar dinamicamente a resposta do LLM quando as políticas de precificação do serviço de LLM mudam. Experimentos extensivos demonstram que o GTAlign melhora substancialmente a eficiência do raciocínio, a qualidade das respostas e o bem-estar mútuo em comparação com as abordagens de referência em diversas tarefas. O código está disponível em https://github.com/ulab-uiuc/GTAlign.
English
Large Language Models (LLMs) have achieved remarkable progress in reasoning, yet sometimes produce responses that are suboptimal for users in tasks such as writing, information seeking, or providing practical guidance. Conventional alignment practices typically assume that maximizing model reward also maximizes user welfare, but this assumption frequently fails in practice: models may over-clarify or generate overly verbose reasoning when users prefer concise answers. Such behaviors resemble the prisoner's dilemma, where individually rational choices lead to socially suboptimal outcomes. The fundamental challenge is the lack of a principled decision making mechanism that mutually benefits both the LLM and the user. We propose Game-Theoretic Alignment (GTAlign), an alignment framework that integrates game-theoretic decision making into both reasoning and training. During reasoning, the model explicitly treats user-LLM interaction as a strategic game: it constructs payoff matrices within its reasoning chain to estimate welfare for both itself and the user, and then selects actions that are mutually beneficial. During training, we introduce a mutual welfare reward that reinforces cooperative responses, aligning model behavior with socially efficient outcomes. In addition, we introduce an inference technique that leverages game-theoretic reasoning to dynamically adapt LLM's response when pricing policies of LLM service change. Extensive experiments demonstrate that GTAlign substantially improves reasoning efficiency, answer quality, and mutual welfare compared to baselines across diverse tasks. The code is available at https://github.com/ulab-uiuc/GTAlign .
PDF23October 13, 2025