ChatPaper.aiChatPaper

Spark : Exploration stratégique sensible aux politiques via le branchement dynamique pour l'apprentissage agentique à long horizon

Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

January 28, 2026
papers.authors: Jinyang Wu, Shuo Yang, Changpeng Yang, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao
cs.AI

papers.abstract

Le renforcement de l'apprentissage a permis aux grands modèles linguistiques d'agir comme des agents intelligents, mais leur entraînement pour des tâches à long horizon reste difficile en raison de la rareté des trajectoires de haute qualité, particulièrement dans un contexte de ressources limitées. Les méthodes existantes augmentent généralement le nombre de déploiements et allouent indistinctement les ressources computationnelles entre les étapes intermédiaires. Ces tentatives gaspillent intrinsèquement un budget computationnel substantiel sur des étapes triviales tout en échouant à garantir la qualité des échantillons. Pour remédier à cela, nous proposons Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching), un nouveau cadre qui opère un branchement sélectif aux états décisionnels critiques pour une exploration économe en ressources. Notre idée clé est d'activer une exploration adaptative par branchement aux points de décision critiques pour sonder les trajectoires prometteuses, réalisant ainsi une allocation précise des ressources qui privilégie la qualité de l'échantillonnage plutôt qu'une couverture aveugle. Cette conception exploite les signaux décisionnels intrinsèques de l'agent pour réduire la dépendance aux connaissances a priori humaines, permettant à l'agent d'étendre autonome-ment son exploration et d'atteindre une plus forte généralisation. Les expériences sur diverses tâches (par exemple, la planification incarnée) démontrent que Spark atteint des taux de réussite supérieurs avec significativement moins d'échantillons d'entraînement, en présentant une généralisation robuste même dans des scénarios non vus.
English
Reinforcement learning has empowered large language models to act as intelligent agents, yet training them for long-horizon tasks remains challenging due to the scarcity of high-quality trajectories, especially under limited resources. Existing methods typically scale up rollout sizes and indiscriminately allocate computational resources among intermediate steps. Such attempts inherently waste substantial computation budget on trivial steps while failing to guarantee sample quality. To address this, we propose Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching), a novel framework that selectively branches at critical decision states for resource-efficient exploration. Our key insight is to activate adaptive branching exploration at critical decision points to probe promising trajectories, thereby achieving precise resource allocation that prioritizes sampling quality over blind coverage. This design leverages the agent's intrinsic decision-making signals to reduce dependence on human priors, enabling the agent to autonomously expand exploration and achieve stronger generalization. Experiments across diverse tasks (e.g., embodied planning), demonstrate that Spark achieves superior success rates with significantly fewer training samples, exhibiting robust generalization even in unseen scenarios.
PDF121January 30, 2026