REDSearcher: un framework scalabile ed economicamente efficiente per agenti di ricerca a lungo orizzonte

Abstract

I grandi modelli linguistici stanno evolvendo da motori di conoscenza generalisti a risolutori di problemi del mondo reale, ma ottimizzarli per compiti di ricerca approfondita rimane una sfida. Il collo di bottiglia principale risiede nell'estrema sparsità di traiettorie di ricerca di alta qualità e segnali di ricompensa, derivanti dalla difficoltà di costruire task scalabili a lungo orizzonte e dall'elevato costo di rollout ad alta interazione che coinvolgono chiamate a strumenti esterni. Per affrontare queste sfide, proponiamo REDSearcher, un framework unificato che co-progetta sintesi di task complessi, addestramento intermedio e post-addestramento per un'ottimizzazione scalabile degli agenti di ricerca. Nello specifico, REDSearcher introduce i seguenti miglioramenti: (1) Inquadriamo la sintesi dei task come un'ottimizzazione a doppio vincolo, in cui la difficoltà del task è governata con precisione dalla topologia del grafo e dalla dispersione delle evidenze, consentendo la generazione scalabile di task complessi e di alta qualità. (2) Introduciamo query potenziate da strumenti per incoraggiare un uso proattivo degli strumenti anziché un richiamo passivo. (3) Durante l'addestramento intermedio, rafforziamo le capacità atomiche fondamentali - conoscenza, pianificazione e chiamata di funzioni - riducendo sostanzialmente il costo della raccolta di traiettorie di alta qualità per l'addestramento a valle. (4) Costruiamo un ambiente simulato locale che consente un'iterazione algoritmica rapida e a basso costo per esperimenti di apprendimento per rinforzo. Su benchmark sia per agenti di ricerca testuali che multimodali, il nostro approccia raggiunge prestazioni all'avanguardia. Per facilitare la ricerca futura sugli agenti di ricerca a lungo orizzonte, renderemo disponibili 10.000 traiettorie di ricerca testuale complesse di alta qualità, 5.000 traiettorie multimodali e un set di 1.000 query testuali per RL, insieme a codice e checkpoint del modello.

English

Large language models are transitioning from generalpurpose knowledge engines to realworld problem solvers, yet optimizing them for deep search tasks remains challenging. The central bottleneck lies in the extreme sparsity of highquality search trajectories and reward signals, arising from the difficulty of scalable longhorizon task construction and the high cost of interactionheavy rollouts involving external tool calls. To address these challenges, we propose REDSearcher, a unified framework that codesigns complex task synthesis, midtraining, and posttraining for scalable searchagent optimization. Specifically, REDSearcher introduces the following improvements: (1) We frame task synthesis as a dualconstrained optimization, where task difficulty is precisely governed by graph topology and evidence dispersion, allowing scalable generation of complex, highquality tasks. (2) We introduce toolaugmented queries to encourage proactive tool use rather than passive recall.(3) During midtraining, we strengthen core atomic capabilities knowledge, planning, and function calling substantially reducing the cost of collecting highquality trajectories for downstream training. (4) We build a local simulated environment that enables rapid, lowcost algorithmic iteration for reinforcement learning experiments. Across both textonly and multimodal searchagent benchmarks, our approach achieves stateoftheart performance. To facilitate future research on longhorizon search agents, we will release 10K highquality complex text search trajectories, 5K multimodal trajectories and 1K text RL query set, and together with code and model checkpoints.

REDSearcher: un framework scalabile ed economicamente efficiente per agenti di ricerca a lungo orizzonte

REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

Abstract

Support