ChatPaper.aiChatPaper

게임 속 사고: 대규모 언어 모델과 강화 학습을 통한 게임 내 추론 능력 학습

Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

August 29, 2025
저자: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang
cs.AI

초록

대형 언어 모델(LLM)은 수학 및 코딩과 같은 복잡한 추론 작업에서 뛰어난 성능을 보이지만, 어린 아이들이 아무런 어려움 없이 수행하는 간단한 상호작용 작업에서는 종종 어려움을 겪습니다. 이러한 차이는 선언적 지식(무엇인지 아는 것)과 절차적 지식(어떻게 하는지 아는 것) 사이의 중요한 격차를 강조합니다. 전통적인 강화 학습(RL) 에이전트는 환경 상호작을 통해 절차적 지식을 습득할 수 있지만, 종종 블랙박스로 작동하며 상당한 양의 훈련 데이터를 필요로 합니다. 반면, LLM은 광범위한 세계 지식과 추론 능력을 갖추고 있지만, 이러한 정적 지식을 상호작용 환경에서의 동적 의사결정으로 효과적으로 전환하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 게임 환경과의 직접적인 상호작을 통해 LLM이 절차적 이해를 개발할 수 있도록 하면서도, 그들의 본질적인 추론 및 설명 능력을 유지할 수 있는 새로운 프레임워크인 Think in Games(TiG)를 제안합니다. 구체적으로, TiG는 RL 기반 의사결정을 언어 모델링 작업으로 재구성합니다: LLM은 언어로 안내된 정책을 생성하며, 이는 환경 피드백을 기반으로 한 온라인 강화 학습을 통해 반복적으로 개선됩니다. 우리의 실험 결과는 TiG가 선언적 지식과 절차적 지식 사이의 격차를 성공적으로 메우며, 기존의 RL 방법에 비해 훨씬 적은 데이터와 계산 요구량으로 경쟁력 있는 성능을 달성함을 보여줍니다. 더욱이, TiG는 의사결정에 대한 단계별 자연어 설명을 제공함으로써 복잡한 상호작용 작업에서의 투명성과 해석 가능성을 크게 향상시킵니다.
English
Large language models (LLMs) excel at complex reasoning tasks such as mathematics and coding, yet they frequently struggle with simple interactive tasks that young children perform effortlessly. This discrepancy highlights a critical gap between declarative knowledge (knowing about something) and procedural knowledge (knowing how to do something). Although traditional reinforcement learning (RL) agents can acquire procedural knowledge through environmental interaction, they often operate as black boxes and require substantial training data. In contrast, LLMs possess extensive world knowledge and reasoning capabilities, but are unable to effectively convert this static knowledge into dynamic decision-making in interactive settings. To address this challenge, we propose Think in Games (TiG), a novel framework that empowers LLMs to develop procedural understanding through direct interaction with game environments, while retaining their inherent reasoning and explanatory abilities. Specifically, TiG reformulates RL-based decision-making as a language modeling task: LLMs generate language-guided policies, which are refined iteratively through online reinforcement learning based on environmental feedback. Our experimental results show that TiG successfully bridges the gap between declarative and procedural knowledge, achieving competitive performance with dramatically lower data and computational demands compared to conventional RL methods. Moreover, TiG provides step-by-step natural language explanations for its decisions, greatly improving transparency and interpretability in complex interactive tasks.
PDF213September 1, 2025