ChatPaper.aiChatPaper

Cogito, Ergo Ludo: Um Agente que Aprende a Jogar por Meio de Raciocínio e Planejamento

Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning

September 29, 2025
Autores: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI

Resumo

A busca por agentes artificiais capazes de aprender a dominar ambientes complexos tem levado a sucessos notáveis, embora os métodos predominantes de aprendizado por reforço profundo frequentemente dependam de uma imensa experiência, codificando seu conhecimento de forma opaca nos pesos das redes neurais. Propomos um paradigma diferente, no qual um agente aprende a jogar por meio de raciocínio e planejamento. Introduzimos o Cogito, ergo ludo (CEL), uma nova arquitetura de agente que aproveita um Modelo de Linguagem de Grande Escala (LLM) para construir uma compreensão explícita, baseada em linguagem, da mecânica do ambiente e de sua própria estratégia. Partindo de um estado de tabula rasa sem conhecimento prévio (exceto o conjunto de ações), o CEL opera em um ciclo de interação e reflexão. Após cada episódio, o agente analisa sua trajetória completa para realizar dois processos de aprendizado simultâneos: Indução de Regras, onde ele refina seu modelo explícito da dinâmica do ambiente, e Resumo de Estratégia e Playbook, onde ele destila experiências em um playbook estratégico acionável. Avaliamos o CEL em diversas tarefas de mundo de grade (ou seja, Campo Minado, Lago Congelado e Sokoban) e mostramos que o agente CEL aprende com sucesso a dominar esses jogos ao descobrir autonomamente suas regras e desenvolver políticas eficazes a partir de recompensas esparsas. Estudos de ablação confirmam que o processo iterativo é crítico para o aprendizado sustentado. Nosso trabalho demonstra um caminho para agentes mais gerais e interpretáveis que não apenas agem de forma eficaz, mas também constroem um modelo transparente e em evolução de seu mundo por meio de raciocínio explícito sobre experiências brutas.
English
The pursuit of artificial agents that can learn to master complex environments has led to remarkable successes, yet prevailing deep reinforcement learning methods often rely on immense experience, encoding their knowledge opaquely within neural network weights. We propose a different paradigm, one in which an agent learns to play by reasoning and planning. We introduce Cogito, ergo ludo (CEL), a novel agent architecture that leverages a Large Language Model (LLM) to build an explicit, language-based understanding of its environment's mechanics and its own strategy. Starting from a tabula rasa state with no prior knowledge (except action set), CEL operates on a cycle of interaction and reflection. After each episode, the agent analyzes its complete trajectory to perform two concurrent learning processes: Rule Induction, where it refines its explicit model of the environment's dynamics, and Strategy and Playbook Summarization, where it distills experiences into an actionable strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e., Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent successfully learns to master these games by autonomously discovering their rules and developing effective policies from sparse rewards. Ablation studies confirm that the iterative process is critical for sustained learning. Our work demonstrates a path toward more general and interpretable agents that not only act effectively but also build a transparent and improving model of their world through explicit reasoning on raw experience.
PDF42September 30, 2025