Au-delà de l'exploration stochastique : ce qui rend les données d'entraînement précieuses pour la recherche agentielle

Résumé

L'apprentissage par renforcement (RL) est devenu une approche efficace pour faire progresser les capacités de raisonnement des grands modèles de langage (LLM) grâce à l'intégration stratégique de moteurs de recherche externes. Cependant, les agents de recherche actuels basés sur le RL s'appuient souvent sur un processus d'exploration stochastique guidé par des récompenses de résultat soigneusement conçues, ce qui entraîne des trajectoires de raisonnement inefficaces et un apprentissage instable. Pour résoudre ces problèmes, nous proposons un nouveau cadre, l'Expérience Hiérarchique (HiExp), pour améliorer les performances et la stabilité de l'apprentissage des agents de recherche. Plus précisément, nous extrayons des connaissances empiriques par une analyse contrastive et un mécanisme de regroupement multi-niveaux, transformant les trajectoires de raisonnement brutes en une connaissance expérientielle hiérarchique. En tirant parti d'un apprentissage aligné sur l'expérience, nous régularisons efficacement l'exploration stochastique, la faisant évoluer vers un processus de recherche stratégique et piloté par l'expérience. Des évaluations approfondies sur plusieurs benchmarks complexes de recherche agentique et de raisonnement mathématique démontrent que notre approche permet non seulement des gains de performance substantiels, mais présente également une forte généralisation inter-tâches et inter-algorithmes.

English

Reinforcement learning (RL) has become an effective approach for advancing the reasoning capabilities of large language models (LLMs) through the strategic integration of external search engines. However, current RL-based search agents often rely on a process of stochastic exploration guided by carefully crafted outcome rewards, leading to inefficient reasoning trajectories and unstable training. To address these issues, we propose a novel framework, Hierarchical Experience (HiExp), to enhance the performance and training stability of search agents. Specifically, we extract empirical knowledge through contrastive analysis and a multi-level clustering mechanism, transforming raw reasoning trajectories into hierarchical experience knowledge. By leveraging experience-aligned training, we effectively regularize stochastic exploration, evolving it into a strategic and experience-driven search process. Extensive evaluations on multiple complex agentic search and mathematical reasoning benchmarks demonstrate that our approach not only achieves substantial performance gains but also exhibits strong cross-task and cross-algorithm generalization.

Au-delà de l'exploration stochastique : ce qui rend les données d'entraînement précieuses pour la recherche agentielle

Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

Résumé

Support