REDSearcher: Een schaalbare en kostenefficiënte architectuur voor langetermijn-zoekagentschappen

Samenvatting

Grote taalmodellen maken een transitie door van algemene kennisengines naar praktische probleemoplossers, maar het optimaliseren ervan voor diepgaande zoektaken blijft een uitdaging. Het belangrijkste knelpunt ligt in de extreme schaarste aan hoogwaardige zoektrajecten en beloningssignalen, die voortkomt uit de moeilijkheid om op schaal langetermijntaken te construeren en de hoge kosten van interactie-intieve rollouts met externe toolaanroepen. Om deze uitdagingen aan te pakken, stellen we REDSearcher voor, een uniform raamwerk dat de synthese van complexe taken, mid-training en post-training gezamenlijk ontwerpt voor schaalbare optimalisatie van zoekagentschappen. Concreet introduceert REDSearcher de volgende verbeteringen: (1) We formuleren taaksynthese als een dubbel-beperkte optimalisatie, waarbij taakmoeilijkheid precies wordt bepaald door grafentopologie en bewijsspreiding, wat een schaalbare generatie van complexe, hoogwaardige taken mogelijk maakt. (2) We introduceren tool-augmented queries om proactief toolgebruik te stimuleren in plaats van passieve herinnering. (3) Tijdens de mid-training versterken we kern-atomaire capaciteiten – kennis, planning en functie-aanroeping – waardoor de kosten voor het verzamelen van hoogwaardige trajecten voor verdere training aanzienlijk worden verlaagd. (4) We bouwen een lokaal gesimuleerde omgeving die snelle, goedkope algoritmische iteratie mogelijk maakt voor reinforcement learning-experimenten. Op zowel tekstuele als multimodale benchmarks voor zoekagentschappen behaalt onze aanpak state-of-the-art prestaties. Om toekomstig onderzoek naar langetermijn zoekagentschappen te vergemakkelijken, zullen we 10.000 hoogwaardige complexe tekstuele zoektrajecten, 5.000 multimodale trajecten en een set van 1.000 tekstuele RL-query's vrijgeven, samen met code en modelcheckpoints.

English

Large language models are transitioning from generalpurpose knowledge engines to realworld problem solvers, yet optimizing them for deep search tasks remains challenging. The central bottleneck lies in the extreme sparsity of highquality search trajectories and reward signals, arising from the difficulty of scalable longhorizon task construction and the high cost of interactionheavy rollouts involving external tool calls. To address these challenges, we propose REDSearcher, a unified framework that codesigns complex task synthesis, midtraining, and posttraining for scalable searchagent optimization. Specifically, REDSearcher introduces the following improvements: (1) We frame task synthesis as a dualconstrained optimization, where task difficulty is precisely governed by graph topology and evidence dispersion, allowing scalable generation of complex, highquality tasks. (2) We introduce toolaugmented queries to encourage proactive tool use rather than passive recall.(3) During midtraining, we strengthen core atomic capabilities knowledge, planning, and function calling substantially reducing the cost of collecting highquality trajectories for downstream training. (4) We build a local simulated environment that enables rapid, lowcost algorithmic iteration for reinforcement learning experiments. Across both textonly and multimodal searchagent benchmarks, our approach achieves stateoftheart performance. To facilitate future research on longhorizon search agents, we will release 10K highquality complex text search trajectories, 5K multimodal trajectories and 1K text RL query set, and together with code and model checkpoints.

REDSearcher: Een schaalbare en kostenefficiënte architectuur voor langetermijn-zoekagentschappen

REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

Samenvatting

Support