Raciocínio Agêntico Eficiente por meio de Planejamento Simulativo Autorregulado

Resumo

Como um agente deve decidir quando e como planejar? Uma abordagem dominante constrói agentes como políticas reativas com computação adaptativa (por exemplo, cadeia de pensamento), treinadas de ponta a ponta esperando que o planejamento emergia implicitamente. Sem controle sobre a presença, estrutura ou horizonte do planejamento, esses sistemas aumentam drasticamente a extensão do raciocínio, resultando em uso ineficiente de tokens sem ganhos confiáveis de precisão. Argumentamos que o raciocínio agentivo eficiente se beneficia da decomposição da tomada de decisão em três sistemas: raciocínio simulativo (Sistema II) que fundamenta a deliberação na predição de estados futuros por meio de um modelo do mundo; autorregulação (Sistema III) que decide quando e com que profundidade planejar por meio de um configurador aprendido; e execução reativa (Sistema I) que trata da ação de granularidade fina. O raciocínio simulativo fornece planejamento unificado em diversas tarefas sem engenharia por domínio, enquanto a autorregulação garante que o planejador seja invocado apenas quando necessário. Para testar isso, desenvolvemos o SR²AM (LLM Agentivo de Raciocínio Simulativo Autorregulado), realizando ambos como etapas distintas dentro da cadeia de pensamento de um LLM, com o LLM atuando como modelo do mundo. Exploramos duas instanciações: registrar decisões de um sistema multimódulo guiado por prompts (v0.1) e reconstruir planos estruturados a partir de rastros de LLMs de raciocínio pré-treinados (v1.0), treinados primeiro com aprendizado supervisionado e depois por reforço (RL). Em matemática, ciências, análise tabular e busca de informações na web, o v0.1-8B e o v1.0-30B alcançam Pass@1 competitivo com sistemas de 120-355B e 685B-1T parâmetros, respectivamente, enquanto o v1.0-30B usa 25,8-95,3% menos tokens de raciocínio do que LLMs agentivos comparáveis. O RL aumenta o horizonte médio de planejamento em 22,8%, enquanto a frequência de planejamento cresce apenas 2,0%, mostrando que ele aprende a planejar mais adiante, e não com mais frequência. De forma mais ampla, a autorregulação aprendida concretiza um princípio que esperamos se estender além do planejamento para como os agentes governam o próprio aprendizado e adaptação.

English

How should an agent decide when and how to plan? A dominant approach builds agents as reactive policies with adaptive computation (e.g., chain-of-thought), trained end-to-end expecting planning to emerge implicitly. Without control over the presence, structure, or horizon of planning, these systems dramatically increase reasoning length, yielding inefficient token use without reliable accuracy gains. We argue efficient agentic reasoning benefits from decomposing decision-making into three systems: simulative reasoning (System II) grounding deliberation in future-state prediction via a world model; self-regulation (System III) deciding when and how deeply to plan via a learned configurator; and reactive execution (System I) handling fine-grained action. Simulative reasoning provides unified planning across diverse tasks without per-domain engineering, while self-regulation ensures the planner is invoked only when needed. To test this, we develop SR^2AM (Self-Regulated Simulative Reasoning Agentic LLM), realizing both as distinct stages within an LLM's chain-of-thought, with the LLM as world model. We explore two instantiations: recording decisions from a prompted multi-module system (v0.1) and reconstructing structured plans from traces of pretrained reasoning LLMs (v1.0), trained via supervised then reinforcement learning (RL). Across math, science, tabular analysis, and web information seeking, v0.1-8B and v1.0-30B achieve Pass@1 competitive with 120-355B and 685B-1T parameter systems respectively, while v1.0-30B uses 25.8-95.3% fewer reasoning tokens than comparable agentic LLMs. RL increases average planning horizon by 22.8% while planning frequency grows only 2.0%, showing it learns to plan further ahead rather than more often. More broadly, learned self-regulation instantiates a principle we expect to extend beyond planning to how agents govern their own learning and adaptation.