REDSearcher : un cadre évolutif et économique pour les agents de recherche à long horizon
REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
February 15, 2026
papers.authors: Zheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang, Yue Yang, Guohai Xu, Chenxiao Zhao, Cheng Xiang, Shengchao Hu, Dongdong Kuang, Ming Liu, Bing Qin, Xing Yu
cs.AI
papers.abstract
Les grands modèles de langage évoluent d’engines de connaissances généralistes vers des systèmes capables de résoudre des problèmes réels, mais leur optimisation pour des tâches de recherche approfondie reste difficile. Le principal goulot d’étranglement réside dans l’extrême rareté des trajectoires de recherche de haute qualité et des signaux de récompense, due à la difficulté de construire des tâches à long horizon de manière scalable et au coût élevé des rollouts intensifs en interactions incluant des appels à des outils externes. Pour relever ces défis, nous proposons REDSearcher, un cadre unifié qui conçoit conjointement la synthèse de tâches complexes, l’entraînement intermédiaire et post-entraînement pour optimiser de façon scalable les agents de recherche. Plus précisément, REDSearcher introduit les améliorations suivantes : (1) Nous modélisons la synthèse de tâches comme une optimisation à double contrainte, où la difficulté est précisément contrôlée par la topologie des graphes et la dispersion des preuves, permettant une génération scalable de tâches complexes et de haute qualité. (2) Nous introduisons des requêtes augmentées par outils pour encourager l’utilisation proactive d’outils plutôt que la récupération passive. (3) Pendant l’entraînement intermédiaire, nous renforçons les capacités atomiques fondamentales — connaissance, planification et appels de fonctions — réduisant substantiellement le coût de collecte de trajectoires de haute qualité pour l’entraînement aval. (4) Nous construisons un environnement simulé local permettant une itération algorithmique rapide et peu coûteuse pour les expériences d’apprentissage par renforcement. Sur des benchmarks d’agents de recherche textuels et multimodaux, notre approche atteint des performances à l’état de l’art. Pour favoriser les recherches futures sur les agents de recherche à long horizon, nous publierons 10 000 trajectoires de recherche textuelle complexes de haute qualité, 5 000 trajectoires multimodales et 1 000 requêtes textuelles pour l’apprentissage par renforcement, ainsi que le code et les points de contrôle des modèles.
English
Large language models are transitioning from generalpurpose knowledge engines to realworld problem solvers, yet optimizing them for deep search tasks remains challenging. The central bottleneck lies in the extreme sparsity of highquality search trajectories and reward signals, arising from the difficulty of scalable longhorizon task construction and the high cost of interactionheavy rollouts involving external tool calls. To address these challenges, we propose REDSearcher, a unified framework that codesigns complex task synthesis, midtraining, and posttraining for scalable searchagent optimization. Specifically, REDSearcher introduces the following improvements: (1) We frame task synthesis as a dualconstrained optimization, where task difficulty is precisely governed by graph topology and evidence dispersion, allowing scalable generation of complex, highquality tasks. (2) We introduce toolaugmented queries to encourage proactive tool use rather than passive recall.(3) During midtraining, we strengthen core atomic capabilities knowledge, planning, and function calling substantially reducing the cost of collecting highquality trajectories for downstream training. (4) We build a local simulated environment that enables rapid, lowcost algorithmic iteration for reinforcement learning experiments. Across both textonly and multimodal searchagent benchmarks, our approach achieves stateoftheart performance. To facilitate future research on longhorizon search agents, we will release 10K highquality complex text search trajectories, 5K multimodal trajectories and 1K text RL query set, and together with code and model checkpoints.