ChatPaper.aiChatPaper

Efficiënt agentisch redeneren door zelfgereguleerde simulatieve planning

Efficient Agentic Reasoning Through Self-Regulated Simulative Planning

May 21, 2026
Auteurs: Mingkai Deng, Jinyu Hou, Lara Sá Neves, Varad Pimpalkhute, Taylor W. Killian, Zhengzhong Liu, Eric P. Xing
cs.AI

Samenvatting

Hoe moet een agent beslissen wanneer en hoe te plannen? Een dominante benadering bouwt agenten als reactieve beleidsvormen met adaptieve berekening (bijv. chain-of-thought), die end-to-end worden getraind in de verwachting dat planning impliciet ontstaat. Zonder controle over de aanwezigheid, structuur of horizon van planning verhogen deze systemen de redeneerlengte drastisch, wat leidt tot inefficiënt tokenverbruik zonder betrouwbare nauwkeurigheidswinst. Wij stellen dat efficiënt agentisch redeneren baat heeft bij het opsplitsen van besluitvorming in drie systemen: simulatief redeneren (System II) dat beraadslaging fundeert in toekomstvoorspelling via een wereldmodel; zelfregulatie (System III) dat via een aangeleerde configurator beslist wanneer en hoe diep te plannen; en reactieve uitvoering (System I) dat fijnmazige acties afhandelt. Simulatief redeneren biedt uniforme planning voor uiteenlopende taken zonder domeinspecifieke engineering, terwijl zelfregulatie garandeert dat de planner alleen wordt aangeroepen wanneer nodig. Om dit te testen ontwikkelen we SR²AM (Self-Regulated Simulative Reasoning Agentic LLM), waarbij beide worden gerealiseerd als afzonderlijke fases binnen de chain-of-thought van een LLM, met de LLM als wereldmodel. We verkennen twee instantiaties: het vastleggen van beslissingen uit een geprompt multimodulair systeem (v0.1) en het reconstructen van gestructureerde plannen uit sporen van voorgetrainde redenerende LLM’s (v1.0), getraind via gesuperviseerd leren gevolgd door reinforcement learning (RL). Op het gebied van wiskunde, wetenschap, tabelanalyse en webinformatie zoeken bereiken v0.1-8B en v1.0-30B Pass@1 die concurrerend is met respectievelijk systemen van 120-355B en 685B-1T parameters, terwijl v1.0-30B 25,8-95,3% minder redeneertokens gebruikt dan vergelijkbare agentische LLM’s. RL verhoogt de gemiddelde planningshorizon met 22,8% terwijl de planningsfrequentie slechts met 2,0% toeneemt, wat laat zien dat het leert verder vooruit te plannen in plaats van vaker. In bredere zin instantieert aangeleerde zelfregulatie een principe waarvan we verwachten dat het verder reikt dan planning, namelijk hoe agenten hun eigen leren en aanpassing sturen.
English
How should an agent decide when and how to plan? A dominant approach builds agents as reactive policies with adaptive computation (e.g., chain-of-thought), trained end-to-end expecting planning to emerge implicitly. Without control over the presence, structure, or horizon of planning, these systems dramatically increase reasoning length, yielding inefficient token use without reliable accuracy gains. We argue efficient agentic reasoning benefits from decomposing decision-making into three systems: simulative reasoning (System II) grounding deliberation in future-state prediction via a world model; self-regulation (System III) deciding when and how deeply to plan via a learned configurator; and reactive execution (System I) handling fine-grained action. Simulative reasoning provides unified planning across diverse tasks without per-domain engineering, while self-regulation ensures the planner is invoked only when needed. To test this, we develop SR^2AM (Self-Regulated Simulative Reasoning Agentic LLM), realizing both as distinct stages within an LLM's chain-of-thought, with the LLM as world model. We explore two instantiations: recording decisions from a prompted multi-module system (v0.1) and reconstructing structured plans from traces of pretrained reasoning LLMs (v1.0), trained via supervised then reinforcement learning (RL). Across math, science, tabular analysis, and web information seeking, v0.1-8B and v1.0-30B achieve Pass@1 competitive with 120-355B and 685B-1T parameter systems respectively, while v1.0-30B uses 25.8-95.3% fewer reasoning tokens than comparable agentic LLMs. RL increases average planning horizon by 22.8% while planning frequency grows only 2.0%, showing it learns to plan further ahead rather than more often. More broadly, learned self-regulation instantiates a principle we expect to extend beyond planning to how agents govern their own learning and adaptation.