Razonamiento agentivo eficiente mediante planificación simulativa autorregulada

Resumen

¿Cómo debería decidir un agente cuándo y cómo planificar? Un enfoque dominante construye agentes como políticas reactivas con computación adaptativa (por ejemplo, cadena de pensamiento), entrenados de extremo a extremo esperando que la planificación emerja implícitamente. Sin control sobre la presencia, estructura u horizonte de la planificación, estos sistemas incrementan drásticamente la longitud del razonamiento, generando un uso ineficiente de tokens sin ganancias confiables de precisión. Sostenemos que el razonamiento agéntico eficiente se beneficia al descomponer la toma de decisiones en tres sistemas: razonamiento simulado (Sistema II) que fundamenta la deliberación en predicciones de estados futuros mediante un modelo del mundo; autorregulación (Sistema III) que decide cuándo y con qué profundidad planificar a través de un configurador aprendido; y ejecución reactiva (Sistema I) que maneja acciones de grano fino. El razonamiento simulado proporciona una planificación unificada en diversas tareas sin ingeniería específica por dominio, mientras que la autorregulación asegura que el planificador se invoca solo cuando es necesario. Para probar esto, desarrollamos SR²AM (Modelo de Lenguaje Agéntico con Razonamiento Simulado y Autorregulación), realizando ambos como etapas distintas dentro de la cadena de pensamiento de un LLM, con el LLM como modelo del mundo. Exploramos dos instanciaciones: registrar decisiones de un sistema multimódulo inducido por instrucciones (v0.1) y reconstruir planes estructurados a partir de trazas de LLMs de razonamiento preentrenados (v1.0), entrenados mediante aprendizaje supervisado y luego por refuerzo (RL). En matemáticas, ciencias, análisis tabular y búsqueda de información web, v0.1-8B y v1.0-30B alcanzan un Pass@1 competitivo con sistemas de 120-355B y 685B-1T parámetros respectivamente, mientras que v1.0-30B utiliza entre un 25,8% y un 95,3% menos tokens de razonamiento que LLMs agénticos comparables. El RL aumenta el horizonte de planificación promedio en un 22,8%, mientras que la frecuencia de planificación crece solo un 2,0%, lo que muestra que aprende a planificar a más largo plazo en lugar de con mayor frecuencia. En un sentido más amplio, la autorregulación aprendida instancia un principio que esperamos se extienda más allá de la planificación, hacia cómo los agentes gobiernan su propio aprendizaje y adaptación.

English

How should an agent decide when and how to plan? A dominant approach builds agents as reactive policies with adaptive computation (e.g., chain-of-thought), trained end-to-end expecting planning to emerge implicitly. Without control over the presence, structure, or horizon of planning, these systems dramatically increase reasoning length, yielding inefficient token use without reliable accuracy gains. We argue efficient agentic reasoning benefits from decomposing decision-making into three systems: simulative reasoning (System II) grounding deliberation in future-state prediction via a world model; self-regulation (System III) deciding when and how deeply to plan via a learned configurator; and reactive execution (System I) handling fine-grained action. Simulative reasoning provides unified planning across diverse tasks without per-domain engineering, while self-regulation ensures the planner is invoked only when needed. To test this, we develop SR^2AM (Self-Regulated Simulative Reasoning Agentic LLM), realizing both as distinct stages within an LLM's chain-of-thought, with the LLM as world model. We explore two instantiations: recording decisions from a prompted multi-module system (v0.1) and reconstructing structured plans from traces of pretrained reasoning LLMs (v1.0), trained via supervised then reinforcement learning (RL). Across math, science, tabular analysis, and web information seeking, v0.1-8B and v1.0-30B achieve Pass@1 competitive with 120-355B and 685B-1T parameter systems respectively, while v1.0-30B uses 25.8-95.3% fewer reasoning tokens than comparable agentic LLMs. RL increases average planning horizon by 22.8% while planning frequency grows only 2.0%, showing it learns to plan further ahead rather than more often. More broadly, learned self-regulation instantiates a principle we expect to extend beyond planning to how agents govern their own learning and adaptation.