ChatPaper.aiChatPaper

Cogito, Ergo Ludo: Un agente que aprende a jugar mediante razonamiento y planificación

Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning

September 29, 2025
Autores: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI

Resumen

La búsqueda de agentes artificiales que puedan aprender a dominar entornos complejos ha llevado a éxitos notables, aunque los métodos predominantes de aprendizaje por refuerzo profundo suelen depender de una experiencia inmensa, codificando su conocimiento de manera opaca en los pesos de las redes neuronales. Proponemos un paradigma diferente, en el que un agente aprende a jugar mediante razonamiento y planificación. Introducimos *Cogito, ergo ludo* (CEL), una arquitectura novedosa de agente que aprovecha un Modelo de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) para construir una comprensión explícita, basada en lenguaje, de la mecánica de su entorno y de su propia estrategia. Partiendo de un estado de *tabula rasa* sin conocimiento previo (excepto el conjunto de acciones), CEL opera en un ciclo de interacción y reflexión. Después de cada episodio, el agente analiza su trayectoria completa para realizar dos procesos de aprendizaje concurrentes: Inducción de Reglas, donde refina su modelo explícito de la dinámica del entorno, y Resumen de Estrategia y Libro de Jugadas, donde destila sus experiencias en un libro de jugadas estratégico y accionable. Evaluamos CEL en diversas tareas de mundos en cuadrícula (por ejemplo, Buscaminas, Lago Congelado y Sokoban), y demostramos que el agente CEL aprende con éxito a dominar estos juegos al descubrir de manera autónoma sus reglas y desarrollar políticas efectivas a partir de recompensas escasas. Los estudios de ablación confirman que el proceso iterativo es crítico para el aprendizaje sostenido. Nuestro trabajo demuestra un camino hacia agentes más generales e interpretables que no solo actúan de manera efectiva, sino que también construyen un modelo transparente y en mejora de su mundo a través del razonamiento explícito sobre la experiencia cruda.
English
The pursuit of artificial agents that can learn to master complex environments has led to remarkable successes, yet prevailing deep reinforcement learning methods often rely on immense experience, encoding their knowledge opaquely within neural network weights. We propose a different paradigm, one in which an agent learns to play by reasoning and planning. We introduce Cogito, ergo ludo (CEL), a novel agent architecture that leverages a Large Language Model (LLM) to build an explicit, language-based understanding of its environment's mechanics and its own strategy. Starting from a tabula rasa state with no prior knowledge (except action set), CEL operates on a cycle of interaction and reflection. After each episode, the agent analyzes its complete trajectory to perform two concurrent learning processes: Rule Induction, where it refines its explicit model of the environment's dynamics, and Strategy and Playbook Summarization, where it distills experiences into an actionable strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e., Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent successfully learns to master these games by autonomously discovering their rules and developing effective policies from sparse rewards. Ablation studies confirm that the iterative process is critical for sustained learning. Our work demonstrates a path toward more general and interpretable agents that not only act effectively but also build a transparent and improving model of their world through explicit reasoning on raw experience.
PDF22September 30, 2025