ChatPaper.aiChatPaper

Cogito, Ergo Ludo: Агент, который учится играть через рассуждение и планирование

Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning

September 29, 2025
Авторы: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI

Аннотация

Стремление к созданию искусственных агентов, способных обучаться и овладевать сложными средами, привело к впечатляющим успехам, однако современные методы глубокого обучения с подкреплением часто требуют огромного опыта, кодируя свои знания непрозрачно в весах нейронных сетей. Мы предлагаем иную парадигму, в которой агент учится играть, рассуждая и планируя. Мы представляем Cogito, ergo ludo (CEL) — новую архитектуру агента, которая использует крупную языковую модель (LLM) для построения явного, основанного на языке понимания механики среды и собственной стратегии. Начиная с состояния tabula rasa, без предварительных знаний (за исключением набора действий), CEL работает в цикле взаимодействия и рефлексии. После каждого эпизода агент анализирует свою полную траекторию, чтобы выполнить два параллельных процесса обучения: Индукция правил, где он уточняет свою явную модель динамики среды, и Суммаризация стратегии и игрового плана, где он извлекает из опыта действенный стратегический план. Мы оцениваем CEL на различных задачах в сеточных мирах (например, "Сапер", "Замёрзшее озеро" и "Сокобан") и показываем, что агент CEL успешно обучается овладевать этими играми, автономно открывая их правила и разрабатывая эффективные политики на основе скудных наград. Абляционные исследования подтверждают, что итеративный процесс критически важен для устойчивого обучения. Наша работа демонстрирует путь к созданию более универсальных и интерпретируемых агентов, которые не только действуют эффективно, но и строят прозрачную и улучшающуюся модель своего мира через явное рассуждение на основе сырого опыта.
English
The pursuit of artificial agents that can learn to master complex environments has led to remarkable successes, yet prevailing deep reinforcement learning methods often rely on immense experience, encoding their knowledge opaquely within neural network weights. We propose a different paradigm, one in which an agent learns to play by reasoning and planning. We introduce Cogito, ergo ludo (CEL), a novel agent architecture that leverages a Large Language Model (LLM) to build an explicit, language-based understanding of its environment's mechanics and its own strategy. Starting from a tabula rasa state with no prior knowledge (except action set), CEL operates on a cycle of interaction and reflection. After each episode, the agent analyzes its complete trajectory to perform two concurrent learning processes: Rule Induction, where it refines its explicit model of the environment's dynamics, and Strategy and Playbook Summarization, where it distills experiences into an actionable strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e., Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent successfully learns to master these games by autonomously discovering their rules and developing effective policies from sparse rewards. Ablation studies confirm that the iterative process is critical for sustained learning. Our work demonstrates a path toward more general and interpretable agents that not only act effectively but also build a transparent and improving model of their world through explicit reasoning on raw experience.
PDF22September 30, 2025