ChatPaper.aiChatPaper

Cogito, Ergo Ludo: 추론과 계획을 통해 게임을 배우는 에이전트

Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning

September 29, 2025
저자: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI

초록

복잡한 환경을 마스터할 수 있는 인공 에이전트를 개발하려는 노력은 놀라운 성과를 거두었지만, 현재의 심층 강화 학습 방법들은 대부분 방대한 경험에 의존하며, 그 지식을 신경망 가중치에 불투명하게 인코딩합니다. 우리는 다른 패러다임을 제안합니다. 에이전트가 추론과 계획을 통해 학습하는 방식입니다. 우리는 '코기토, 에르고 루도(Cogito, ergo ludo, CEL)'라는 새로운 에이전트 아키텍처를 소개합니다. 이 아키텍처는 대형 언어 모델(LLM)을 활용하여 환경의 메커니즘과 자신의 전략에 대한 명시적이고 언어 기반의 이해를 구축합니다. 사전 지식 없이(단, 행동 집합은 제외) 백지 상태에서 시작하는 CEL은 상호작용과 성찰의 주기를 통해 작동합니다. 각 에피소드 후, 에이전트는 완전한 궤적을 분석하여 두 가지 동시 학습 과정을 수행합니다: '규칙 유도(Rule Induction)'에서는 환경의 역학에 대한 명시적 모델을 개선하고, '전략 및 플레이북 요약(Strategy and Playbook Summarization)'에서는 경험을 실행 가능한 전략 플레이북으로 정제합니다. 우리는 CEL을 다양한 그리드 월드 작업(즉, 지뢰 찾기, 얼어붙은 호수, 소코반)에서 평가하고, CEL 에이전트가 희소한 보상에서도 게임의 규칙을 자율적으로 발견하고 효과적인 정책을 개발하여 이러한 게임을 마스터하는 데 성공함을 보여줍니다. 제거 연구(ablation studies)는 반복적인 과정이 지속적인 학습에 중요함을 확인합니다. 우리의 작업은 효과적으로 행동할 뿐만 아니라 원시 경험에 대한 명시적 추론을 통해 세계에 대한 투명하고 개선되는 모델을 구축하는 보다 일반적이고 해석 가능한 에이전트로 나아가는 길을 보여줍니다.
English
The pursuit of artificial agents that can learn to master complex environments has led to remarkable successes, yet prevailing deep reinforcement learning methods often rely on immense experience, encoding their knowledge opaquely within neural network weights. We propose a different paradigm, one in which an agent learns to play by reasoning and planning. We introduce Cogito, ergo ludo (CEL), a novel agent architecture that leverages a Large Language Model (LLM) to build an explicit, language-based understanding of its environment's mechanics and its own strategy. Starting from a tabula rasa state with no prior knowledge (except action set), CEL operates on a cycle of interaction and reflection. After each episode, the agent analyzes its complete trajectory to perform two concurrent learning processes: Rule Induction, where it refines its explicit model of the environment's dynamics, and Strategy and Playbook Summarization, where it distills experiences into an actionable strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e., Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent successfully learns to master these games by autonomously discovering their rules and developing effective policies from sparse rewards. Ablation studies confirm that the iterative process is critical for sustained learning. Our work demonstrates a path toward more general and interpretable agents that not only act effectively but also build a transparent and improving model of their world through explicit reasoning on raw experience.
PDF22September 30, 2025