Эффективное агентное рассуждение посредством саморегулируемого симулятивного планирования

Аннотация

Как агенту следует принимать решение о том, когда и как планировать? Доминирующий подход строит агентов как реактивные политики с адаптивными вычислениями (например, цепочка рассуждений), обучаемые сквозным образом в расчете на то, что планирование возникнет неявно. Без контроля за наличием, структурой или горизонтом планирования такие системы резко увеличивают длину рассуждений, что приводит к неэффективному использованию токенов без надежного повышения точности. Мы утверждаем, что эффективное агентное рассуждение выигрывает от разложения принятия решений на три системы: симулятивное рассуждение (Система II), обосновывающее обдумывание на предсказании будущих состояний через модель мира; самоконтроль (Система III), решающий, когда и насколько глубоко планировать, с помощью обученного конфигуратора; и реактивное выполнение (Система I), обрабатывающее действия на мелком уровне. Симулятивное рассуждение обеспечивает унифицированное планирование для различных задач без инженерии под каждый домен, в то время как самоконтроль гарантирует, что планировщик вызывается только при необходимости. Для проверки этого мы разрабатываем SR^2AM (Self-Regulated Simulative Reasoning Agentic LLM — самоконтролируемый симулятивный рассуждающий агентный LLM), реализуя обе системы как отдельные этапы в цепочке рассуждений LLM, при этом LLM выступает в роли модели мира. Мы исследуем две реализации: запись решений из мультимодульной системы с подсказками (v0.1) и реконструкцию структурированных планов из трасс предварительно обученных рассуждающих LLM (v1.0), обученных сначала с учителем, а затем с помощью обучения с подкреплением (RL). В задачах математики, естественных наук, табличного анализа и поиска информации в интернете v0.1-8B и v1.0-30B достигают показателя Pass@1, конкурентоспособного с системами с 120–355B и 685B–1T параметров соответственно, при этом v1.0-30B использует на 25,8–95,3% меньше токенов рассуждений, чем сравнимые агентные LLM. Обучение с подкреплением увеличивает средний горизонт планирования на 22,8%, в то время как частота планирования растет лишь на 2,0%, что показывает, что оно учится планировать дальше вперед, а не чаще. В более широком смысле, обученный самоконтроль воплощает принцип, который, как мы ожидаем, выйдет за рамки планирования и распространится на то, как агенты управляют собственным обучением и адаптацией.

English

How should an agent decide when and how to plan? A dominant approach builds agents as reactive policies with adaptive computation (e.g., chain-of-thought), trained end-to-end expecting planning to emerge implicitly. Without control over the presence, structure, or horizon of planning, these systems dramatically increase reasoning length, yielding inefficient token use without reliable accuracy gains. We argue efficient agentic reasoning benefits from decomposing decision-making into three systems: simulative reasoning (System II) grounding deliberation in future-state prediction via a world model; self-regulation (System III) deciding when and how deeply to plan via a learned configurator; and reactive execution (System I) handling fine-grained action. Simulative reasoning provides unified planning across diverse tasks without per-domain engineering, while self-regulation ensures the planner is invoked only when needed. To test this, we develop SR^2AM (Self-Regulated Simulative Reasoning Agentic LLM), realizing both as distinct stages within an LLM's chain-of-thought, with the LLM as world model. We explore two instantiations: recording decisions from a prompted multi-module system (v0.1) and reconstructing structured plans from traces of pretrained reasoning LLMs (v1.0), trained via supervised then reinforcement learning (RL). Across math, science, tabular analysis, and web information seeking, v0.1-8B and v1.0-30B achieve Pass@1 competitive with 120-355B and 685B-1T parameter systems respectively, while v1.0-30B uses 25.8-95.3% fewer reasoning tokens than comparable agentic LLMs. RL increases average planning horizon by 22.8% while planning frequency grows only 2.0%, showing it learns to plan further ahead rather than more often. More broadly, learned self-regulation instantiates a principle we expect to extend beyond planning to how agents govern their own learning and adaptation.