Raisonnement agentique efficace par planification simulatoire autorégulée

Résumé

Comment un agent doit-il décider quand et comment planifier ? Une approche dominante consiste à construire des agents sous forme de politiques réactives avec calcul adaptatif (par exemple, le chain-of-thought), entraînées de bout en bout en espérant que la planification émerge implicitement. Sans contrôle sur la présence, la structure ou l'horizon de la planification, ces systèmes augmentent considérablement la longueur du raisonnement, entraînant une utilisation inefficace des jetons sans gains fiables en précision. Nous soutenons qu'un raisonnement agentique efficace bénéficie de la décomposition de la prise de décision en trois systèmes : le raisonnement simulatif (Système II) qui ancre la délibération dans la prédiction d'états futurs via un modèle du monde ; l'autorégulation (Système III) qui décide quand et à quelle profondeur planifier via un configurateur appris ; et l'exécution réactive (Système I) qui gère les actions fines. Le raisonnement simulatif fournit une planification unifiée pour diverses tâches sans ingénierie par domaine, tandis que l'autorégulation garantit que le planificateur n'est invoqué qu'en cas de besoin. Pour tester cela, nous développons SR^2AM (Self-Regulated Simulative Reasoning Agentic LLM), réalisant les deux en tant qu'étapes distinctes dans le chain-of-thought d'un LLM, ce dernier servant de modèle du monde. Nous explorons deux instanciations : l'enregistrement des décisions d'un système multi-module piloté par des invites (v0.1) et la reconstruction de plans structurés à partir de traces de LLMs de raisonnement pré-entraînés (v1.0), entraînés via un apprentissage supervisé puis par renforcement (RL). Dans les domaines des mathématiques, des sciences, de l'analyse tabulaire et de la recherche d'informations sur le web, v0.1-8B et v1.0-30B atteignent un Pass@1 compétitif avec des systèmes de 120-355B et 685B-1T paramètres respectivement, tandis que v1.0-30B utilise 25,8 à 95,3 % de jetons de raisonnement en moins que les LLMs agentiques comparables. Le RL augmente l'horizon moyen de planification de 22,8 % tandis que la fréquence de planification ne croît que de 2,0 %, montrant qu'il apprend à planifier plus loin plutôt que plus souvent. Plus largement, l'autorégulation apprise instancie un principe que nous nous attendons à voir s'étendre au-delà de la planification, à la manière dont les agents gouvernent leur propre apprentissage et adaptation.

English

How should an agent decide when and how to plan? A dominant approach builds agents as reactive policies with adaptive computation (e.g., chain-of-thought), trained end-to-end expecting planning to emerge implicitly. Without control over the presence, structure, or horizon of planning, these systems dramatically increase reasoning length, yielding inefficient token use without reliable accuracy gains. We argue efficient agentic reasoning benefits from decomposing decision-making into three systems: simulative reasoning (System II) grounding deliberation in future-state prediction via a world model; self-regulation (System III) deciding when and how deeply to plan via a learned configurator; and reactive execution (System I) handling fine-grained action. Simulative reasoning provides unified planning across diverse tasks without per-domain engineering, while self-regulation ensures the planner is invoked only when needed. To test this, we develop SR^2AM (Self-Regulated Simulative Reasoning Agentic LLM), realizing both as distinct stages within an LLM's chain-of-thought, with the LLM as world model. We explore two instantiations: recording decisions from a prompted multi-module system (v0.1) and reconstructing structured plans from traces of pretrained reasoning LLMs (v1.0), trained via supervised then reinforcement learning (RL). Across math, science, tabular analysis, and web information seeking, v0.1-8B and v1.0-30B achieve Pass@1 competitive with 120-355B and 685B-1T parameter systems respectively, while v1.0-30B uses 25.8-95.3% fewer reasoning tokens than comparable agentic LLMs. RL increases average planning horizon by 22.8% while planning frequency grows only 2.0%, showing it learns to plan further ahead rather than more often. More broadly, learned self-regulation instantiates a principle we expect to extend beyond planning to how agents govern their own learning and adaptation.