Effizientes agentisches Denken durch selbstregulierte simulative Planung

Zusammenfassung

Wie sollte ein Agent entscheiden, wann und wie er plant? Ein dominanter Ansatz konstruiert Agenten als reaktive Strategien mit adaptiver Berechnung (z. B. Gedankenkette), die Ende-zu-Ende trainiert werden, in der Erwartung, dass Planung implizit entsteht. Ohne Kontrolle über das Vorhandensein, die Struktur oder den Horizont der Planung erhöhen diese Systeme die Länge des Reasoning drastisch, was zu ineffizienter Token-Nutzung ohne zuverlässige Genauigkeitsgewinne führt. Wir argumentieren, dass effizientes agentisches Reasoning von der Zerlegung der Entscheidungsfindung in drei Systeme profitiert: Simulatives Denken (System II), das die deliberation in der Vorhersage zukünftiger Zustände mittels eines Weltmodells verankert; Selbstregulation (System III), die mithilfe eines gelernten Konfigurators entscheidet, wann und wie tief geplant werden soll; und reaktive Ausführung (System I), die feingranulare Aktionen übernimmt. Simulatives Denken bietet eine einheitliche Planung über verschiedene Aufgaben hinweg ohne domänenspezifische Entwicklung, während die Selbstregulation sicherstellt, dass der Planer nur bei Bedarf aufgerufen wird. Um dies zu testen, entwickeln wir SR²AM (Self-Regulated Simulative Reasoning Agentic LLM), das beide als separate Phasen innerhalb der Gedankenkette eines LLM realisiert, wobei das LLM als Weltmodell fungiert. Wir untersuchen zwei Instanziierungen: Aufzeichnung von Entscheidungen eines per Prompting gesteuerten Multi-Modul-Systems (v0.1) und Rekonstruktion strukturierter Pläne aus Spuren vortrainierter Reasoning-LLMs (v1.0), trainiert durch überwachtes Lernen und anschließendes Verstärkungslernen (RL). In den Bereichen Mathematik, Naturwissenschaften, Tabellenanalyse und Websuche erreichen v0.1-8B und v1.0-30B Pass@1, das mit Systemen mit 120-355B bzw. 685B-1T Parametern konkurrieren kann, während v1.0-30B 25,8-95,3 % weniger Reasoning-Tokens als vergleichbare agentische LLMs verwendet. RL erhöht den durchschnittlichen Planungshorizont um 22,8 %, während die Planungsfrequenz nur um 2,0 % steigt, was zeigt, dass es lernt, weiter im Voraus zu planen, anstatt häufiger zu planen. Allgemeiner gesagt, verkörpert erlernte Selbstregulation ein Prinzip, von dem wir erwarten, dass es über die Planung hinaus auf die Art und Weise ausgedehnt wird, wie Agenten ihr eigenes Lernen und ihre Anpassung steuern.

English

How should an agent decide when and how to plan? A dominant approach builds agents as reactive policies with adaptive computation (e.g., chain-of-thought), trained end-to-end expecting planning to emerge implicitly. Without control over the presence, structure, or horizon of planning, these systems dramatically increase reasoning length, yielding inefficient token use without reliable accuracy gains. We argue efficient agentic reasoning benefits from decomposing decision-making into three systems: simulative reasoning (System II) grounding deliberation in future-state prediction via a world model; self-regulation (System III) deciding when and how deeply to plan via a learned configurator; and reactive execution (System I) handling fine-grained action. Simulative reasoning provides unified planning across diverse tasks without per-domain engineering, while self-regulation ensures the planner is invoked only when needed. To test this, we develop SR^2AM (Self-Regulated Simulative Reasoning Agentic LLM), realizing both as distinct stages within an LLM's chain-of-thought, with the LLM as world model. We explore two instantiations: recording decisions from a prompted multi-module system (v0.1) and reconstructing structured plans from traces of pretrained reasoning LLMs (v1.0), trained via supervised then reinforcement learning (RL). Across math, science, tabular analysis, and web information seeking, v0.1-8B and v1.0-30B achieve Pass@1 competitive with 120-355B and 685B-1T parameter systems respectively, while v1.0-30B uses 25.8-95.3% fewer reasoning tokens than comparable agentic LLMs. RL increases average planning horizon by 22.8% while planning frequency grows only 2.0%, showing it learns to plan further ahead rather than more often. More broadly, learned self-regulation instantiates a principle we expect to extend beyond planning to how agents govern their own learning and adaptation.