GameTalk: Treinando LLMs para Conversação Estratégica

Resumo

A tomada de decisões estratégicas em ambientes multiagente é um desafio fundamental para os grandes modelos de linguagem (LLMs), particularmente quando a coordenação e a negociação devem desenrolar-se ao longo de conversas prolongadas. Embora trabalhos recentes tenham explorado o uso de LLMs em tarefas de decisão isoladas, pouca atenção foi dada à otimização de objetivos de longo prazo através do diálogo. Apresentamos o GameTalk, uma estrutura para treinar LLMs a tomar decisões estratégicas por meio de interações multi-turno. Diferente de trabalhos anteriores que se concentram em objetivos de turno único ou na previsão de ações estáticas, nós treinamos LLMs para otimizar um objetivo global ao longo de conversas completas. Alcançamos isso adaptando métodos de ajuste fino como GRPO, DPO e STaR para incorporar sinais de recompensa que dependem de toda a interação. Avaliamos esta abordagem em um conjunto de jogos de complexidade crescente, concebidos para testar diferentes aspetos do raciocínio, coordenação e modelação do oponente. Os nossos resultados mostram que o GameTalk supera significativamente os modelos não treinados, especialmente sob a modelação de recompensas (reward shaping), com o DPO a produzir consistentemente os ganhos mais robustos. Estas descobertas posicionam o ajuste fino conversacional como um caminho promissor para os LLMs raciocinarem, negociarem e agirem em ambientes interativos.

English

Strategic decision-making in multi-agent settings is a key challenge for large language models (LLMs), particularly when coordination and negotiation must unfold over extended conversations. While recent work has explored the use of LLMs in isolated decision tasks, little attention has been given to optimizing long-term objectives through dialogue. We introduce GameTalk, a framework for training LLMs to make strategic decisions via multi-turn interactions. Unlike prior work that focuses on single-turn objectives or static action prediction, we train LLMs to optimize a global objective across full conversations. We achieve this by adapting fine-tuning methods like GRPO, DPO, and STaR to incorporate reward signals that depend on the entire interaction. We evaluate this approach on a suite of increasingly complex games, designed to stress different aspects of reasoning, coordination, and opponent modeling. Our results show that GameTalk significantly outperforms untrained models, especially under reward shaping, with DPO consistently yielding the strongest gains. These findings position conversational fine-tuning as a promising path for LLMs to reason, negotiate, and act in interactive environments.

GameTalk: Treinando LLMs para Conversação Estratégica

GameTalk: Training LLMs for Strategic Conversation

Resumo

Support