Oltre l’Esplorazione Stocastica: Cosa Rende i Dati di Addestramento Preziosi per la Ricerca Agente-Orientata

Abstract

L'apprendimento per rinforzo (RL) è diventato un approccio efficace per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM) attraverso l'integrazione strategica di motori di ricerca esterni. Tuttavia, gli agenti di ricerca basati su RL attuali spesso si affidano a un processo di esplorazione stocastica guidato da ricompense di risultato accuratamente progettate, portando a traiettorie di ragionamento inefficienti e un addestramento instabile. Per affrontare questi problemi, proponiamo una nuova architettura, Hierarchical Experience (HiExp), per migliorare le prestazioni e la stabilità dell'addestramento degli agenti di ricerca. Nello specifico, estraiamo conoscenza empirica attraverso l'analisi contrastiva e un meccanismo di clustering multilivello, trasformando le traiettorie di ragionamento grezze in conoscenza esperienziale gerarchica. Sfruttando un addestramento allineato all'esperienza, regolarizziamo efficacemente l'esplorazione stocastica, evolvendola in un processo di ricerca strategico e guidato dall'esperienza. Valutazioni estensive su molteplici benchmark complessi di ricerca agentiva e ragionamento matematico dimostrano che il nostro approccio non solo ottiene miglioramenti prestazionali sostanziali, ma mostra anche una forte generalizzazione trasversale ai compiti e agli algoritmi.

English

Reinforcement learning (RL) has become an effective approach for advancing the reasoning capabilities of large language models (LLMs) through the strategic integration of external search engines. However, current RL-based search agents often rely on a process of stochastic exploration guided by carefully crafted outcome rewards, leading to inefficient reasoning trajectories and unstable training. To address these issues, we propose a novel framework, Hierarchical Experience (HiExp), to enhance the performance and training stability of search agents. Specifically, we extract empirical knowledge through contrastive analysis and a multi-level clustering mechanism, transforming raw reasoning trajectories into hierarchical experience knowledge. By leveraging experience-aligned training, we effectively regularize stochastic exploration, evolving it into a strategic and experience-driven search process. Extensive evaluations on multiple complex agentic search and mathematical reasoning benchmarks demonstrate that our approach not only achieves substantial performance gains but also exhibits strong cross-task and cross-algorithm generalization.

Oltre l’Esplorazione Stocastica: Cosa Rende i Dati di Addestramento Preziosi per la Ricerca Agente-Orientata

Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

Abstract

Support