GameTalk: Entrenamiento de LLM para Conversaciones Estratégicas
GameTalk: Training LLMs for Strategic Conversation
January 22, 2026
Autores: Victor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar
cs.AI
Resumen
La toma de decisiones estratégicas en entornos multiagente es un desafío clave para los grandes modelos de lenguaje (LLM), particularmente cuando la coordinación y la negociación deben desarrollarse en conversaciones prolongadas. Si bien trabajos recientes han explorado el uso de LLM en tareas de decisión aisladas, se ha prestado poca atención a la optimización de objetivos a largo plazo mediante el diálogo. Presentamos GameTalk, un marco para entrenar LLMs en la toma de decisiones estratégicas a través de interacciones multiturno. A diferencia de trabajos previos que se centran en objetivos de un solo turno o en la predicción de acciones estáticas, entrenamos a los LLMs para optimizar un objetivo global a lo largo de conversaciones completas. Logramos esto adaptando métodos de ajuste fino como GRPO, DPO y STaR para incorporar señales de recompensa que dependen de toda la interacción. Evaluamos este enfoque en un conjunto de juegos de complejidad creciente, diseñados para poner a prueba diferentes aspectos del razonamiento, la coordinación y el modelado de oponentes. Nuestros resultados muestran que GameTalk supera significativamente a los modelos sin entrenar, especialmente bajo configuración de recompensas, siendo DPO el método que consistentemente produce las mayores mejoras. Estos hallazgos posicionan al ajuste fino conversacional como un camino prometedor para que los LLMs razonen, negocien y actúen en entornos interactivos.
English
Strategic decision-making in multi-agent settings is a key challenge for large language models (LLMs), particularly when coordination and negotiation must unfold over extended conversations. While recent work has explored the use of LLMs in isolated decision tasks, little attention has been given to optimizing long-term objectives through dialogue. We introduce GameTalk, a framework for training LLMs to make strategic decisions via multi-turn interactions. Unlike prior work that focuses on single-turn objectives or static action prediction, we train LLMs to optimize a global objective across full conversations. We achieve this by adapting fine-tuning methods like GRPO, DPO, and STaR to incorporate reward signals that depend on the entire interaction. We evaluate this approach on a suite of increasingly complex games, designed to stress different aspects of reasoning, coordination, and opponent modeling. Our results show that GameTalk significantly outperforms untrained models, especially under reward shaping, with DPO consistently yielding the strongest gains. These findings position conversational fine-tuning as a promising path for LLMs to reason, negotiate, and act in interactive environments.