GameTalk: Training von LLMs für strategische Konversation
GameTalk: Training LLMs for Strategic Conversation
January 22, 2026
papers.authors: Victor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar
cs.AI
papers.abstract
Strategische Entscheidungsfindung in Multi-Agenten-Umgebungen stellt eine zentrale Herausforderung für große Sprachmodelle (LLMs) dar, insbesondere wenn Koordination und Verhandlung über längere Gespräche hinweg stattfinden müssen. Während neuere Arbeiten den Einsatz von LLMs in isolierten Entscheidungsaufgaben untersucht haben, wurde der Optimierung langfristiger Ziele durch Dialog bislang wenig Beachtung geschenkt. Wir stellen GameTalk vor, einen Rahmen zum Trainieren von LLMs für strategische Entscheidungen durch mehrstufige Interaktionen. Im Gegensatz zu früheren Arbeiten, die sich auf Einzelschritt-Ziele oder statische Aktionsvorhersage konzentrieren, trainieren wir LLMs darauf, ein globales Ziel über gesamte Konversationen hinweg zu optimieren. Wir erreichen dies durch die Anpassung von Fine-Tuning-Methoden wie GRPO, DPO und STaR, um Belohnungssignale zu integrieren, die von der gesamten Interaktion abhängen. Wir bewerten diesen Ansatz anhand einer Reihe zunehmend komplexer Spiele, die entwickelt wurden, um verschiedene Aspekte des Schlussfolgerns, der Koordination und der Modellierung von Gegenspielern zu testen. Unsere Ergebnisse zeigen, dass GameTalk nicht trainierte Modelle signifikant übertrifft, insbesondere unter Reward Shaping, wobei DPO durchweg die größten Leistungssteigerungen erzielt. Diese Ergebnisse positionieren konversationsbasiertes Fine-Tuning als einen vielversprechenden Weg, damit LLMs in interaktiven Umgebungen schlussfolgern, verhandeln und handeln können.
English
Strategic decision-making in multi-agent settings is a key challenge for large language models (LLMs), particularly when coordination and negotiation must unfold over extended conversations. While recent work has explored the use of LLMs in isolated decision tasks, little attention has been given to optimizing long-term objectives through dialogue. We introduce GameTalk, a framework for training LLMs to make strategic decisions via multi-turn interactions. Unlike prior work that focuses on single-turn objectives or static action prediction, we train LLMs to optimize a global objective across full conversations. We achieve this by adapting fine-tuning methods like GRPO, DPO, and STaR to incorporate reward signals that depend on the entire interaction. We evaluate this approach on a suite of increasingly complex games, designed to stress different aspects of reasoning, coordination, and opponent modeling. Our results show that GameTalk significantly outperforms untrained models, especially under reward shaping, with DPO consistently yielding the strongest gains. These findings position conversational fine-tuning as a promising path for LLMs to reason, negotiate, and act in interactive environments.