GTAlign: Spieltheoretische Ausrichtung von LLM-Assistenten für gegenseitiges Wohlergehen

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte im Bereich des logischen Denkens erzielt, erzeugen jedoch manchmal Antworten, die für Benutzer in Aufgaben wie dem Verfassen von Texten, der Informationssuche oder der Bereitstellung praktischer Anleitungen suboptimal sind. Herkömmliche Alignment-Praktiken gehen typischerweise davon aus, dass die Maximierung der Modellbelohnung auch das Wohl der Benutzer maximiert, doch diese Annahme scheitert in der Praxis häufig: Modelle können übermäßig erklären oder übermäßig ausführliche Begründungen liefern, wenn Benutzer prägnante Antworten bevorzugen. Solche Verhaltensweisen ähneln dem Gefangenendilemma, bei dem individuell rationale Entscheidungen zu gesellschaftlich suboptimalen Ergebnissen führen. Die grundlegende Herausforderung besteht in dem Fehlen eines prinzipiellen Entscheidungsmechanismus, der sowohl dem LLM als auch dem Benutzer gegenseitigen Nutzen bringt. Wir schlagen Game-Theoretic Alignment (GTAlign) vor, ein Alignment-Framework, das spieltheoretische Entscheidungsfindung sowohl in das logische Denken als auch in das Training integriert. Während des logischen Denkens behandelt das Modell die Interaktion zwischen Benutzer und LLM explizit als strategisches Spiel: Es konstruiert Auszahlungsmatrizen innerhalb seiner Denkkette, um den Nutzen sowohl für sich selbst als auch für den Benutzer abzuschätzen, und wählt dann Handlungen aus, die gegenseitig vorteilhaft sind. Während des Trainings führen wir eine gegenseitige Wohlfahrtsbelohnung ein, die kooperative Antworten verstärkt und das Modellverhalten mit gesellschaftlich effizienten Ergebnissen in Einklang bringt. Darüber hinaus führen wir eine Inferenztechnik ein, die spieltheoretisches Denken nutzt, um die Antwort des LLMs dynamisch anzupassen, wenn sich die Preispolitiken des LLM-Dienstes ändern. Umfangreiche Experimente zeigen, dass GTAlign die Effizienz des logischen Denkens, die Qualität der Antworten und den gegenseitigen Nutzen im Vergleich zu Baseline-Modellen bei verschiedenen Aufgaben erheblich verbessert. Der Code ist verfügbar unter https://github.com/ulab-uiuc/GTAlign.

English

Large Language Models (LLMs) have achieved remarkable progress in reasoning, yet sometimes produce responses that are suboptimal for users in tasks such as writing, information seeking, or providing practical guidance. Conventional alignment practices typically assume that maximizing model reward also maximizes user welfare, but this assumption frequently fails in practice: models may over-clarify or generate overly verbose reasoning when users prefer concise answers. Such behaviors resemble the prisoner's dilemma, where individually rational choices lead to socially suboptimal outcomes. The fundamental challenge is the lack of a principled decision making mechanism that mutually benefits both the LLM and the user. We propose Game-Theoretic Alignment (GTAlign), an alignment framework that integrates game-theoretic decision making into both reasoning and training. During reasoning, the model explicitly treats user-LLM interaction as a strategic game: it constructs payoff matrices within its reasoning chain to estimate welfare for both itself and the user, and then selects actions that are mutually beneficial. During training, we introduce a mutual welfare reward that reinforces cooperative responses, aligning model behavior with socially efficient outcomes. In addition, we introduce an inference technique that leverages game-theoretic reasoning to dynamically adapt LLM's response when pricing policies of LLM service change. Extensive experiments demonstrate that GTAlign substantially improves reasoning efficiency, answer quality, and mutual welfare compared to baselines across diverse tasks. The code is available at https://github.com/ulab-uiuc/GTAlign .

GTAlign: Spieltheoretische Ausrichtung von LLM-Assistenten für gegenseitiges Wohlergehen

GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

papers.abstract

Support