GameTalk: Обучение больших языковых моделей стратегическому ведению диалога
GameTalk: Training LLMs for Strategic Conversation
January 22, 2026
Авторы: Victor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar
cs.AI
Аннотация
Стратегическое принятие решений в условиях множества агентов является ключевой проблемой для больших языковых моделей (LLM), особенно когда координация и переговоры должны разворачиваться в рамках продолжительных диалогов. В то время как последние исследования изучали применение LLM для изолированных задач принятия решений, оптимизации долгосрочных целей посредством диалога уделялось мало внимания. Мы представляем GameTalk — фреймворк для обучения LLM принятию стратегических решений через многоходовые взаимодействия. В отличие от предыдущих работ, сфокусированных на одношаговых целях или статическом прогнозировании действий, мы обучаем LLM оптимизировать глобальную цель на протяжении всей беседы. Мы достигаем этого, адаптируя методы тонкой настройки, такие как GRPO, DPO и STaR, для включения сигналов вознаграждения, зависящих от всего взаимодействия. Мы оцениваем этот подход на наборе постепенно усложняющихся игр, разработанных для проверки различных аспектов reasoning, координации и моделирования оппонента. Наши результаты показывают, что GameTalk значительно превосходит немодели, особенно при использовании формирования вознаграждения, причем DPO стабильно демонстрирует наибольший прирост. Эти результаты позиционируют диалоговую тонкую настройку как перспективный путь для развития способности LLM к reasoning, ведению переговоров и действиям в интерактивных средах.
English
Strategic decision-making in multi-agent settings is a key challenge for large language models (LLMs), particularly when coordination and negotiation must unfold over extended conversations. While recent work has explored the use of LLMs in isolated decision tasks, little attention has been given to optimizing long-term objectives through dialogue. We introduce GameTalk, a framework for training LLMs to make strategic decisions via multi-turn interactions. Unlike prior work that focuses on single-turn objectives or static action prediction, we train LLMs to optimize a global objective across full conversations. We achieve this by adapting fine-tuning methods like GRPO, DPO, and STaR to incorporate reward signals that depend on the entire interaction. We evaluate this approach on a suite of increasingly complex games, designed to stress different aspects of reasoning, coordination, and opponent modeling. Our results show that GameTalk significantly outperforms untrained models, especially under reward shaping, with DPO consistently yielding the strongest gains. These findings position conversational fine-tuning as a promising path for LLMs to reason, negotiate, and act in interactive environments.