Spark: 長期的エージェント学習のための動的分岐による戦略的ポリシー認識探索
Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning
January 28, 2026
著者: Jinyang Wu, Shuo Yang, Changpeng Yang, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao
cs.AI
要旨
強化学習は大規模言語モデルを知的エージェントとして動作させることを可能にしたが、高品質な軌道の不足、特に限られたリソース下での長期的タスクの訓練は依然として課題である。既存手法では、一般にロールアウト規模を拡大し、計算リソースを中間ステップに無差別に割り当てる。このような試みは本質的に、重要でないステップに多大な計算バジェットを浪費し、サンプル品質を保証できない。この問題に対処するため、我々はSpark(重要状態における動的分岐による戦略的政策認識探索)を提案する。これは、リソース効率的な探索のために重要な意思決定状態で選択的に分岐する新規フレームワークである。重要な洞察は、有望な軌道を探るため重要な意思決定点で適応的分岐探索を活性化し、盲目的な網羅性よりもサンプリング品質を優先する精密なリソース配分を実現することである。この設計はエージェントの内在的な意思決定信号を活用して人間の事前知識への依存を軽減し、エージェントが自律的に探索を拡大し、より強力な一般化を達成することを可能にする。多様なタスク(例えば具現化プランニング)における実験により、Sparkが大幅に少ない訓練サンプルで優れた成功率を達成し、未経験のシナリオにおいても頑健な一般化を示すことを実証した。
English
Reinforcement learning has empowered large language models to act as intelligent agents, yet training them for long-horizon tasks remains challenging due to the scarcity of high-quality trajectories, especially under limited resources. Existing methods typically scale up rollout sizes and indiscriminately allocate computational resources among intermediate steps. Such attempts inherently waste substantial computation budget on trivial steps while failing to guarantee sample quality. To address this, we propose Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching), a novel framework that selectively branches at critical decision states for resource-efficient exploration. Our key insight is to activate adaptive branching exploration at critical decision points to probe promising trajectories, thereby achieving precise resource allocation that prioritizes sampling quality over blind coverage. This design leverages the agent's intrinsic decision-making signals to reduce dependence on human priors, enabling the agent to autonomously expand exploration and achieve stronger generalization. Experiments across diverse tasks (e.g., embodied planning), demonstrate that Spark achieves superior success rates with significantly fewer training samples, exhibiting robust generalization even in unseen scenarios.