Cogito, Ergo Ludo: Агент, который учится играть через рассуждение и планирование
Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning
September 29, 2025
Авторы: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI
Аннотация
Стремление к созданию искусственных агентов, способных обучаться и овладевать сложными средами, привело к впечатляющим успехам, однако современные методы глубокого обучения с подкреплением часто требуют огромного опыта, кодируя свои знания непрозрачно в весах нейронных сетей. Мы предлагаем иную парадигму, в которой агент учится играть, рассуждая и планируя. Мы представляем Cogito, ergo ludo (CEL) — новую архитектуру агента, которая использует крупную языковую модель (LLM) для построения явного, основанного на языке понимания механики среды и собственной стратегии. Начиная с состояния tabula rasa, без предварительных знаний (за исключением набора действий), CEL работает в цикле взаимодействия и рефлексии. После каждого эпизода агент анализирует свою полную траекторию, чтобы выполнить два параллельных процесса обучения: Индукция правил, где он уточняет свою явную модель динамики среды, и Суммаризация стратегии и игрового плана, где он извлекает из опыта действенный стратегический план. Мы оцениваем CEL на различных задачах в сеточных мирах (например, "Сапер", "Замёрзшее озеро" и "Сокобан") и показываем, что агент CEL успешно обучается овладевать этими играми, автономно открывая их правила и разрабатывая эффективные политики на основе скудных наград. Абляционные исследования подтверждают, что итеративный процесс критически важен для устойчивого обучения. Наша работа демонстрирует путь к созданию более универсальных и интерпретируемых агентов, которые не только действуют эффективно, но и строят прозрачную и улучшающуюся модель своего мира через явное рассуждение на основе сырого опыта.
English
The pursuit of artificial agents that can learn to master complex
environments has led to remarkable successes, yet prevailing deep reinforcement
learning methods often rely on immense experience, encoding their knowledge
opaquely within neural network weights. We propose a different paradigm, one in
which an agent learns to play by reasoning and planning. We introduce Cogito,
ergo ludo (CEL), a novel agent architecture that leverages a Large Language
Model (LLM) to build an explicit, language-based understanding of its
environment's mechanics and its own strategy. Starting from a tabula rasa state
with no prior knowledge (except action set), CEL operates on a cycle of
interaction and reflection. After each episode, the agent analyzes its complete
trajectory to perform two concurrent learning processes: Rule Induction, where
it refines its explicit model of the environment's dynamics, and Strategy and
Playbook Summarization, where it distills experiences into an actionable
strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e.,
Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent
successfully learns to master these games by autonomously discovering their
rules and developing effective policies from sparse rewards. Ablation studies
confirm that the iterative process is critical for sustained learning. Our work
demonstrates a path toward more general and interpretable agents that not only
act effectively but also build a transparent and improving model of their world
through explicit reasoning on raw experience.