GameTalk: Addestramento di LLM per Conversazioni Strategiche

Abstract

La presa di decisioni strategiche in ambienti multi-agente rappresenta una sfida cruciale per i grandi modelli linguistici (LLM), specialmente quando il coordinamento e la negoziazione devono svilupparsi in conversazioni prolungate. Sebbene recenti lavori abbiano esplorato l'uso degli LLM in compiti decisionali isolati, è stata data poca attenzione all'ottimizzazione di obiettivi a lungo termine attraverso il dialogo. Introduciamo GameTalk, un framework per addestrare LLM a prendere decisioni strategiche mediante interazioni multi-turno. A differenza dei lavori precedenti, che si concentrano su obiettivi a turno singolo o sulla previsione di azioni statiche, noi addestriamo gli LLM a ottimizzare un obiettivo globale lungo intere conversazioni. Raggiungiamo questo risultato adattando metodi di fine-tuning come GRPO, DPO e STaR per incorporare segnali di ricompensa che dipendono dall'intera interazione. Valutiamo questo approccio su una serie di giochi di complessità crescente, progettati per sollecitare diversi aspetti del ragionamento, del coordinamento e della modellazione dell'avversario. I nostri risultati dimostrano che GameTalk supera significativamente i modelli non addestrati, specialmente con il reward shaping, e che il DPO produce costantemente i migliori guadagni. Questi risultati posizionano il fine-tuning conversazionale come una strada promettente affinché gli LLM possano ragionare, negoziare e agire in ambienti interattivi.

English

Strategic decision-making in multi-agent settings is a key challenge for large language models (LLMs), particularly when coordination and negotiation must unfold over extended conversations. While recent work has explored the use of LLMs in isolated decision tasks, little attention has been given to optimizing long-term objectives through dialogue. We introduce GameTalk, a framework for training LLMs to make strategic decisions via multi-turn interactions. Unlike prior work that focuses on single-turn objectives or static action prediction, we train LLMs to optimize a global objective across full conversations. We achieve this by adapting fine-tuning methods like GRPO, DPO, and STaR to incorporate reward signals that depend on the entire interaction. We evaluate this approach on a suite of increasingly complex games, designed to stress different aspects of reasoning, coordination, and opponent modeling. Our results show that GameTalk significantly outperforms untrained models, especially under reward shaping, with DPO consistently yielding the strongest gains. These findings position conversational fine-tuning as a promising path for LLMs to reason, negotiate, and act in interactive environments.

GameTalk: Addestramento di LLM per Conversazioni Strategiche

GameTalk: Training LLMs for Strategic Conversation

Abstract

Support