GameTalk: 戦略的会話のための大規模言語モデルトレーニング
GameTalk: Training LLMs for Strategic Conversation
January 22, 2026
著者: Victor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar
cs.AI
要旨
マルチエージェント環境における戦略的意思決定は、大規模言語モデル(LLM)にとって重要な課題であり、特に長い対話を通じた調整や交渉が必要な場面で顕著です。近年の研究では単発的な意思決定タスクへのLLM応用が探求されていますが、対話を通じた長期的目標の最適化にはほとんど注目されていません。本論文では、マルチターン相互作用を通じて戦略的意思決定を行うLLMを訓練するフレームワーク「GameTalk」を提案します。単一ターンの目標や静的な行動予測に焦点を当てた従来研究と異なり、私たちは完全な対話全体にわたる大域的目標を最適化するようLLMを訓練します。これを実現するため、GRPO、DPO、STaRなどのファインチューニング手法を改良し、相互作用全体に依存する報酬信号を組み込みました。推論・調整・相手のモデル化といった様々な側面を検証するため、複雑度を段階的に上げたゲーム群で評価を実施した結果、GameTalkは未訓練モデルを大幅に上回り、特に報酬形成条件下でDPOが一貫して最高の改善効果を示しました。これらの知見は、対話型環境においてLLMが推論・交渉・行動するための有望なアプローチとして、会話ベースのファインチューニングの重要性を位置づけるものです。
English
Strategic decision-making in multi-agent settings is a key challenge for large language models (LLMs), particularly when coordination and negotiation must unfold over extended conversations. While recent work has explored the use of LLMs in isolated decision tasks, little attention has been given to optimizing long-term objectives through dialogue. We introduce GameTalk, a framework for training LLMs to make strategic decisions via multi-turn interactions. Unlike prior work that focuses on single-turn objectives or static action prediction, we train LLMs to optimize a global objective across full conversations. We achieve this by adapting fine-tuning methods like GRPO, DPO, and STaR to incorporate reward signals that depend on the entire interaction. We evaluate this approach on a suite of increasingly complex games, designed to stress different aspects of reasoning, coordination, and opponent modeling. Our results show that GameTalk significantly outperforms untrained models, especially under reward shaping, with DPO consistently yielding the strongest gains. These findings position conversational fine-tuning as a promising path for LLMs to reason, negotiate, and act in interactive environments.