ChatPaper.aiChatPaper

REDSearcher: Ein skalierbares und kosteneffizientes Framework für Suchagenten mit langem Planungshorizont

REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

February 15, 2026
papers.authors: Zheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang, Yue Yang, Guohai Xu, Chenxiao Zhao, Cheng Xiang, Shengchao Hu, Dongdong Kuang, Ming Liu, Bing Qin, Xing Yu
cs.AI

papers.abstract

Große Sprachmodelle entwickeln sich von allgemeinen Wissensmaschinen hin zu praxisorientierten Problemlösern, doch ihre Optimierung für tiefgreifende Suchaufgaben bleibt eine Herausforderung. Der zentrale Engpass liegt in der extremen Spärlichkeit hochwertiger Suchtrajektorien und Belohnungssignale, die sich aus der Schwierigkeit skalierbarer Konstruktion langfristiger Aufgaben und den hohen Kosten interaktionsintensiver Rollouts mit externen Tool-Aufrufen ergibt. Um diese Herausforderungen zu bewältigen, schlagen wir REDSearcher vor, einen einheitlichen Rahmen, der komplexe Tasksynthese, Mid-Training und Post-Training für skalierbare Suchagenten-Optimierung codesigniert. Konkret führt REDSearcher folgende Verbesserungen ein: (1) Wir formulieren Tasksynthese als dual-optimiertes Problem, bei dem die Aufgabenschwierigkeit präzise durch Graphentopologie und Evidenzverteilung gesteuert wird, was skalierbare Generierung komplexer, hochwertiger Aufgaben ermöglicht. (2) Wir führen tool-augmentierte Abfragen ein, um proaktive Tool-Nutzung statt passiver Wissensabfrage zu fördern. (3) Während des Mid-Trainings stärken wir Kernfähigkeiten – Wissen, Planung und Funktionsaufrufe – und reduzieren so die Kosten für das Sammeln hochwertiger Trajektorien für nachgelagertes Training erheblich. (4) Wir bauen eine lokale Simulationsumgebung, die schnelle, kostengünstige algorithmische Iteration für Reinforcement-Learning-Experimente ermöglicht. In Benchmarks für textbasierte und multimodale Suchagenten erzielt unser Ansatz state-of-the-art-Leistung. Um zukünftige Forschung zu langfristigen Suchagenten zu fördern, werden wir 10.000 hochwertige komplexe Textsuchtrajektorien, 5.000 multimodale Trajektorien und 1.000 textbasierte RL-Abfragesets zusammen mit Code und Modell-Checkpoints veröffentlichen.
English
Large language models are transitioning from generalpurpose knowledge engines to realworld problem solvers, yet optimizing them for deep search tasks remains challenging. The central bottleneck lies in the extreme sparsity of highquality search trajectories and reward signals, arising from the difficulty of scalable longhorizon task construction and the high cost of interactionheavy rollouts involving external tool calls. To address these challenges, we propose REDSearcher, a unified framework that codesigns complex task synthesis, midtraining, and posttraining for scalable searchagent optimization. Specifically, REDSearcher introduces the following improvements: (1) We frame task synthesis as a dualconstrained optimization, where task difficulty is precisely governed by graph topology and evidence dispersion, allowing scalable generation of complex, highquality tasks. (2) We introduce toolaugmented queries to encourage proactive tool use rather than passive recall.(3) During midtraining, we strengthen core atomic capabilities knowledge, planning, and function calling substantially reducing the cost of collecting highquality trajectories for downstream training. (4) We build a local simulated environment that enables rapid, lowcost algorithmic iteration for reinforcement learning experiments. Across both textonly and multimodal searchagent benchmarks, our approach achieves stateoftheart performance. To facilitate future research on longhorizon search agents, we will release 10K highquality complex text search trajectories, 5K multimodal trajectories and 1K text RL query set, and together with code and model checkpoints.
PDF172February 18, 2026