ChatPaper.aiChatPaper

스파크: 장기적 에이전트 학습을 위한 동적 분기를 통한 전략적 정책 인식 탐색

Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

January 28, 2026
저자: Jinyang Wu, Shuo Yang, Changpeng Yang, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao
cs.AI

초록

강화 학습은 대규모 언어 모델이 지능형 에이전트로 작동할 수 있게 했으나, 고품질 궤적의 부족으로 인해, 특히 제한된 자원 하에서 장기간 과업을 위한 학습은 여전히 어려운 과제입니다. 기존 방법론은 일반적으로 롤아웟 규모를 확장하고 중간 단계들에 계산 자원을 무분별하게 할당합니다. 이러한 시도는 사소한 단계에 상당한 계산 예산을 낭비하는 본질적 한계가 있으며 표본 품질을 보장하지 못합니다. 이를 해결하기 위해 우리는 자원 효율적 탐색을 위해 핵심 의사 결정 상태에서 선택적으로 분기하는 새로운 프레임워크인 Spark(전략적 정책 인식 핵심 상태 동적 분기 탐색)를 제안합니다. 우리의 핵심 통찰은 유망한 궤적을 탐색하기 위해 중요한 의사 결정 지점에서 적응형 분기 탐색을 활성화함으로써, 무분별한 포괄성보다 표본 품질을 우선시하는 정밀한 자원 할당을 달성하는 것입니다. 이 설계는 에이전트의 내재적 의사 결정 신호를 활용하여 인간 사전 지식에 대한 의존도를 줄이고, 에이전트가 자율적으로 탐색을 확장하며 강력한 일반화를 달성할 수 있게 합니다. 다양한 과업(예: 구체화된 계획 수립)에 대한 실험을 통해 Spark가 훨씬 적은 학습 표본으로 우수한 성공률을 달성하며, 보이지 않는 시나리오에서도 견고한 일반화 능력을 보임을 입증했습니다.
English
Reinforcement learning has empowered large language models to act as intelligent agents, yet training them for long-horizon tasks remains challenging due to the scarcity of high-quality trajectories, especially under limited resources. Existing methods typically scale up rollout sizes and indiscriminately allocate computational resources among intermediate steps. Such attempts inherently waste substantial computation budget on trivial steps while failing to guarantee sample quality. To address this, we propose Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching), a novel framework that selectively branches at critical decision states for resource-efficient exploration. Our key insight is to activate adaptive branching exploration at critical decision points to probe promising trajectories, thereby achieving precise resource allocation that prioritizes sampling quality over blind coverage. This design leverages the agent's intrinsic decision-making signals to reduce dependence on human priors, enabling the agent to autonomously expand exploration and achieve stronger generalization. Experiments across diverse tasks (e.g., embodied planning), demonstrate that Spark achieves superior success rates with significantly fewer training samples, exhibiting robust generalization even in unseen scenarios.
PDF121January 30, 2026