GameTalk: Het trainen van grote taalmodelen voor strategische conversatie

Samenvatting

Strategische besluitvorming in multi-agentomgevingen is een centrale uitdaging voor grote taalmodellen (LLM's), vooral wanneer coördinatie en onderhandeling zich moeten ontvouwen over langere gesprekken. Hoewel recent onderzoek het gebruik van LLM's in geïsoleerde besluitvormingstaken heeft verkend, is er weinig aandacht geweest voor het optimaliseren van langetermijndoelen via dialoog. Wij introduceren GameTalk, een raamwerk voor het trainen van LLM's om strategische beslissingen te nemen via multi-turn interacties. In tegenstelling tot eerder werk dat zich richt op single-turn doelstellingen of statische actievoorspelling, trainen wij LLM's om een globaal doel te optimaliseren over volledige conversaties. Wij bereiken dit door fine-tuningmethoden zoals GRPO, DPO en STaR aan te passen om beloningssignalen op te nemen die afhankelijk zijn van de gehele interactie. Wij evalueren deze aanpak op een reeks steeds complexere spellen, ontworpen om verschillende aspecten van redenering, coördinatie en modellering van tegenstanders te belasten. Onze resultaten tonen aan dat GameTalk aanzienlijk beter presteert dan niet-getrainde modellen, vooral bij 'reward shaping', waarbij DPO consequent de grootste verbeteringen oplevert. Deze bevindingen positioneren conversationele fine-tuning als een veelbelovende weg voor LLM's om te redeneren, onderhandelen en handelen in interactieve omgevingen.

English

Strategic decision-making in multi-agent settings is a key challenge for large language models (LLMs), particularly when coordination and negotiation must unfold over extended conversations. While recent work has explored the use of LLMs in isolated decision tasks, little attention has been given to optimizing long-term objectives through dialogue. We introduce GameTalk, a framework for training LLMs to make strategic decisions via multi-turn interactions. Unlike prior work that focuses on single-turn objectives or static action prediction, we train LLMs to optimize a global objective across full conversations. We achieve this by adapting fine-tuning methods like GRPO, DPO, and STaR to incorporate reward signals that depend on the entire interaction. We evaluate this approach on a suite of increasingly complex games, designed to stress different aspects of reasoning, coordination, and opponent modeling. Our results show that GameTalk significantly outperforms untrained models, especially under reward shaping, with DPO consistently yielding the strongest gains. These findings position conversational fine-tuning as a promising path for LLMs to reason, negotiate, and act in interactive environments.

GameTalk: Het trainen van grote taalmodelen voor strategische conversatie

GameTalk: Training LLMs for Strategic Conversation

Samenvatting

Support