Além da Exploração Estocástica: O Que Torna os Dados de Treinamento Valiosos para a Busca Agêntica

Resumo

O aprendizado por reforço (RL) tornou-se uma abordagem eficaz para avançar as capacidades de raciocínio de modelos de linguagem de grande porte (LLMs) através da integração estratégica de motores de busca externos. No entanto, os agentes de busca baseados em RL atuais frequentemente dependem de um processo de exploração estocástica orientado por recompensas de resultado cuidadosamente elaboradas, resultando em trajetórias de raciocínio ineficientes e treinamento instável. Para resolver essas questões, propomos uma nova estrutura, a Experiência Hierárquica (HiExp), para melhorar o desempenho e a estabilidade do treinamento de agentes de busca. Especificamente, extraímos conhecimento empírico através de análise contrastiva e um mecanismo de agrupamento multinível, transformando trajetórias de raciocínio brutas em conhecimento de experiência hierárquica. Ao aproveitar o treinamento alinhado com a experiência, regularizamos efetivamente a exploração estocástica, evoluindo-a para um processo de busca estratégico e orientado pela experiência. Avaliações extensas em múltiplos benchmarks complexos de busca agentiva e raciocínio matemático demonstram que nossa abordagem não apenas alcança ganhos substanciais de desempenho, mas também exibe forte generalização cruzada entre tarefas e algoritmos.

English

Reinforcement learning (RL) has become an effective approach for advancing the reasoning capabilities of large language models (LLMs) through the strategic integration of external search engines. However, current RL-based search agents often rely on a process of stochastic exploration guided by carefully crafted outcome rewards, leading to inefficient reasoning trajectories and unstable training. To address these issues, we propose a novel framework, Hierarchical Experience (HiExp), to enhance the performance and training stability of search agents. Specifically, we extract empirical knowledge through contrastive analysis and a multi-level clustering mechanism, transforming raw reasoning trajectories into hierarchical experience knowledge. By leveraging experience-aligned training, we effectively regularize stochastic exploration, evolving it into a strategic and experience-driven search process. Extensive evaluations on multiple complex agentic search and mathematical reasoning benchmarks demonstrate that our approach not only achieves substantial performance gains but also exhibits strong cross-task and cross-algorithm generalization.

Além da Exploração Estocástica: O Que Torna os Dados de Treinamento Valiosos para a Busca Agêntica

Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

Resumo

Support