GameTalk : Former des modèles de langage étendus à la conversation stratégique

Résumé

La prise de décision stratégique dans des environnements multi-agents représente un défi majeur pour les grands modèles de langage (LLM), particulièrement lorsque la coordination et la négociation doivent se dérouler sur des conversations prolongées. Si des travaux récents ont exploré l'utilisation des LLM pour des tâches de décision isolées, peu d'attention a été accordée à l'optimisation d'objectifs à long terme par le dialogue. Nous présentons GameTalk, un cadre pour entraîner les LLM à prendre des décisions stratégiques via des interactions multi-tours. Contrairement aux approches antérieures axées sur des objectifs en un seul tour ou la prédiction d'actions statiques, nous entraînons les LLM à optimiser un objectif global sur la totalité des conversations. Nous y parvenons en adaptant des méthodes de fine-tuning comme GRPO, DPO et STaR pour incorporer des signaux de récompense dépendants de l'intégralité de l'interaction. Nous évaluons cette approche sur une série de jeux de complexité croissante, conçus pour solliciter différents aspects du raisonnement, de la coordination et de la modélisation de l'adversaire. Nos résultats montrent que GameTalk surpasse significativement les modèles non entraînés, surtout avec un façonnage des récompenses, DPO produisant systématiquement les gains les plus importants. Ces résultats positionnent le fine-tuning conversationnel comme une voie prometteuse pour permettre aux LLM de raisonner, négocier et agir dans des environnements interactifs.

English

Strategic decision-making in multi-agent settings is a key challenge for large language models (LLMs), particularly when coordination and negotiation must unfold over extended conversations. While recent work has explored the use of LLMs in isolated decision tasks, little attention has been given to optimizing long-term objectives through dialogue. We introduce GameTalk, a framework for training LLMs to make strategic decisions via multi-turn interactions. Unlike prior work that focuses on single-turn objectives or static action prediction, we train LLMs to optimize a global objective across full conversations. We achieve this by adapting fine-tuning methods like GRPO, DPO, and STaR to incorporate reward signals that depend on the entire interaction. We evaluate this approach on a suite of increasingly complex games, designed to stress different aspects of reasoning, coordination, and opponent modeling. Our results show that GameTalk significantly outperforms untrained models, especially under reward shaping, with DPO consistently yielding the strongest gains. These findings position conversational fine-tuning as a promising path for LLMs to reason, negotiate, and act in interactive environments.

GameTalk : Former des modèles de langage étendus à la conversation stratégique

GameTalk: Training LLMs for Strategic Conversation

Résumé

Support