Spark: Стратегическое исследование с учетом политики через динамическое ветвление для агентного обучения в длинных горизонтах
Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning
January 28, 2026
Авторы: Jinyang Wu, Shuo Yang, Changpeng Yang, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao
cs.AI
Аннотация
Методы обучения с подкреплением позволяют крупным языковым моделям функционировать в качестве интеллектуальных агентов, однако их обучение для решения задач с длинным горизонтом планирования остается сложной проблемой из-за недостатка высококачественных траекторий, особенно в условиях ограниченных ресурсов. Существующие подходы обычно наращивают объем сэмплирования и неразборчиво распределяют вычислительные ресурсы между промежуточными шагами. Такие попытки по своей сути приводят к значительным затратам вычислительного бюджета на тривиальные шаги, не гарантируя при этом качества образцов. Для решения этой проблемы мы предлагаем Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching) — новую архитектуру, которая выборочно ветвится на критических состояниях принятия решений для ресурсоэффективного исследования. Ключевая идея заключается в активации адаптивного ветвящегося исследования в критических точках принятия решений для поиска перспективных траекторий, что позволяет достичь точного распределения ресурсов, отдающего приоритет качеству сэмплирования перед слепым охватом. Данный подход использует внутренние сигналы принятия решений агентом для снижения зависимости от априорных знаний, позволяя агенту автономно расширять исследование и достигать более высокой обобщающей способности. Эксперименты на разнообразных задачах (например, воплощенное планирование) демонстрируют, что Spark достигает превосходных показателей успешности при значительно меньшем объеме обучающих данных, проявляя robustную обобщающую способность даже в непредвиденных сценариях.
English
Reinforcement learning has empowered large language models to act as intelligent agents, yet training them for long-horizon tasks remains challenging due to the scarcity of high-quality trajectories, especially under limited resources. Existing methods typically scale up rollout sizes and indiscriminately allocate computational resources among intermediate steps. Such attempts inherently waste substantial computation budget on trivial steps while failing to guarantee sample quality. To address this, we propose Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching), a novel framework that selectively branches at critical decision states for resource-efficient exploration. Our key insight is to activate adaptive branching exploration at critical decision points to probe promising trajectories, thereby achieving precise resource allocation that prioritizes sampling quality over blind coverage. This design leverages the agent's intrinsic decision-making signals to reduce dependence on human priors, enabling the agent to autonomously expand exploration and achieve stronger generalization. Experiments across diverse tasks (e.g., embodied planning), demonstrate that Spark achieves superior success rates with significantly fewer training samples, exhibiting robust generalization even in unseen scenarios.