ChatPaper.aiChatPaper

GameTalk: 전략적 대화를 위한 대규모 언어 모델 학습

GameTalk: Training LLMs for Strategic Conversation

January 22, 2026
저자: Victor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar
cs.AI

초록

다중 에이전트 환경에서의 전략적 의사결정은 대규모 언어 모델(LLM)의 주요 과제로, 특히 장기간 대화를 통해 조율과 협상이 이루어져야 하는 상황에서 두드러집니다. 최근 연구에서 고립된 의사결정 과제에 LLM을 활용하는 방법이 탐구되었으나, 대화를 통한 장기 목표 최적화에는 상대적으로 적은 관심이 집중되었습니다. 본 연구에서는 다중 차례 상호작용을 통해 전략적 의사결정을 내리도록 LLM을 훈련시키는 프레임워크인 GameTalk을 소개합니다. 단일 차례 목표나 정적 행동 예측에 중점을 둔 기존 연구와 달리, 우리는 전체 대화에 걸쳐 글로벌 목표를 최적화하도록 LLM을 훈련시킵니다. 이를 위해 GRPO, DPO, STaR와 같은 미세 조정 방법을 적용하여 상호작용 전체에 의존하는 보상 신호를 통합하였습니다. 우리는 추론, 조율, 상대 모델링의 다양한 측면을 검증하도록 설계된 점점 더 복잡해지는 일련의 게임에서 이 접근법을 평가합니다. 결과에 따르면 GameTalk은 훈련되지 않은 모델을 크게 능가하며, 특히 보상 형성 하에서 그 성능이 두드러지고, DPO가 가장 꾸준한 성능 향상을 보여줍니다. 이러한 발견들은 대화형 미세 조정이 LLM이 상호작용 환경에서 추론, 협상, 행동할 수 있는 유망한 경로임을 입증합니다.
English
Strategic decision-making in multi-agent settings is a key challenge for large language models (LLMs), particularly when coordination and negotiation must unfold over extended conversations. While recent work has explored the use of LLMs in isolated decision tasks, little attention has been given to optimizing long-term objectives through dialogue. We introduce GameTalk, a framework for training LLMs to make strategic decisions via multi-turn interactions. Unlike prior work that focuses on single-turn objectives or static action prediction, we train LLMs to optimize a global objective across full conversations. We achieve this by adapting fine-tuning methods like GRPO, DPO, and STaR to incorporate reward signals that depend on the entire interaction. We evaluate this approach on a suite of increasingly complex games, designed to stress different aspects of reasoning, coordination, and opponent modeling. Our results show that GameTalk significantly outperforms untrained models, especially under reward shaping, with DPO consistently yielding the strongest gains. These findings position conversational fine-tuning as a promising path for LLMs to reason, negotiate, and act in interactive environments.
PDF84January 27, 2026