Más allá de la exploración estocástica: Qué hace valiosos los datos de entrenamiento para la búsqueda agéntica

Resumen

El aprendizaje por refuerzo (RL) se ha convertido en un enfoque efectivo para avanzar en las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs) mediante la integración estratégica de motores de búsqueda externos. Sin embargo, los agentes de búsqueda basados en RL actuales a menudo dependen de un proceso de exploración estocástica guiado por recompensas de resultado cuidadosamente diseñadas, lo que conduce a trayectorias de razonamiento ineficientes y a un entrenamiento inestable. Para abordar estos problemas, proponemos un marco novedoso, Experiencia Jerárquica (HiExp), para mejorar el rendimiento y la estabilidad del entrenamiento de los agentes de búsqueda. Específicamente, extraemos conocimiento empírico mediante análisis contrastivo y un mecanismo de agrupamiento multinivel, transformando las trayectorias de razonamiento crudas en conocimiento de experiencia jerárquica. Al aprovechar el entrenamiento alineado con la experiencia, regularizamos efectivamente la exploración estocástica, evolucionándola hacia un proceso de búsqueda estratégico y guiado por la experiencia. Evaluaciones exhaustivas en múltiples benchmarks complejos de búsqueda agentica y razonamiento matemático demuestran que nuestro enfoque no solo logra ganancias sustanciales de rendimiento, sino que también exhibe una fuerte generalización cruzada entre tareas y algoritmos.

English

Reinforcement learning (RL) has become an effective approach for advancing the reasoning capabilities of large language models (LLMs) through the strategic integration of external search engines. However, current RL-based search agents often rely on a process of stochastic exploration guided by carefully crafted outcome rewards, leading to inefficient reasoning trajectories and unstable training. To address these issues, we propose a novel framework, Hierarchical Experience (HiExp), to enhance the performance and training stability of search agents. Specifically, we extract empirical knowledge through contrastive analysis and a multi-level clustering mechanism, transforming raw reasoning trajectories into hierarchical experience knowledge. By leveraging experience-aligned training, we effectively regularize stochastic exploration, evolving it into a strategic and experience-driven search process. Extensive evaluations on multiple complex agentic search and mathematical reasoning benchmarks demonstrate that our approach not only achieves substantial performance gains but also exhibits strong cross-task and cross-algorithm generalization.

Más allá de la exploración estocástica: Qué hace valiosos los datos de entrenamiento para la búsqueda agéntica

Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

Resumen

Support