REDSearcher: Масштабируемая и экономически эффективная платформа для агентов поиска с длительным горизонтом планирования
REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
February 15, 2026
Авторы: Zheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang, Yue Yang, Guohai Xu, Chenxiao Zhao, Cheng Xiang, Shengchao Hu, Dongdong Kuang, Ming Liu, Bing Qin, Xing Yu
cs.AI
Аннотация
Крупные языковые модели переходят от универсальных систем знаний к решению практических задач, однако их оптимизация для сложных поисковых задач остается сложной проблемой. Ключевое узкое место заключается в крайней разреженности высококачественных поисковых траекторий и сигналов вознаграждения, что вызвано трудностью масштабируемого построения долгосрочных задач и высокой стоимостью ресурсоемких прогонов с вызовами внешних инструментов. Для решения этих проблем мы предлагаем REDSearcher — унифицированную структуру, которая совместно проектирует синтез сложных задач, промежуточное и пост-обучение для масштабируемой оптимизации поисковых агентов. В частности, REDSearcher вводит следующие улучшения: (1) Мы формулируем синтез задач как двойственную задачу оптимизации, где сложность задачи точно управляется топологией графа и дисперсией доказательств, что позволяет масштабируемо генерировать сложные, качественные задачи. (2) Мы вводим инструментально-расширенные запросы, чтобы поощрять активное использование инструментов вместо пассивного припоминания. (3) В ходе промежуточного обучения мы усиливаем ключевые атомарные способности — знание, планирование и вызов функций — существенно снижая стоимость сбора высококачественных траекторий для последующего обучения. (4) Мы создаем локальную имитационную среду, которая обеспечивает быструю и недорогую алгоритмическую итерацию для экспериментов с обучением с подкреплением. На бенчмарках для текстовых и мультимодальных поисковых агентов наш подход демонстрирует наилучшие результаты. Для содействия будущим исследованиям в области долгосрочных поисковых агентов мы опубликуем 10 тыс. высококачественных сложных текстовых поисковых траекторий, 5 тыс. мультимодальных траекторий и 1 тыс. текстовых запросов для обучения с подкреплением, а также код и контрольные точки моделей.
English
Large language models are transitioning from generalpurpose knowledge engines to realworld problem solvers, yet optimizing them for deep search tasks remains challenging. The central bottleneck lies in the extreme sparsity of highquality search trajectories and reward signals, arising from the difficulty of scalable longhorizon task construction and the high cost of interactionheavy rollouts involving external tool calls. To address these challenges, we propose REDSearcher, a unified framework that codesigns complex task synthesis, midtraining, and posttraining for scalable searchagent optimization. Specifically, REDSearcher introduces the following improvements: (1) We frame task synthesis as a dualconstrained optimization, where task difficulty is precisely governed by graph topology and evidence dispersion, allowing scalable generation of complex, highquality tasks. (2) We introduce toolaugmented queries to encourage proactive tool use rather than passive recall.(3) During midtraining, we strengthen core atomic capabilities knowledge, planning, and function calling substantially reducing the cost of collecting highquality trajectories for downstream training. (4) We build a local simulated environment that enables rapid, lowcost algorithmic iteration for reinforcement learning experiments. Across both textonly and multimodal searchagent benchmarks, our approach achieves stateoftheart performance. To facilitate future research on longhorizon search agents, we will release 10K highquality complex text search trajectories, 5K multimodal trajectories and 1K text RL query set, and together with code and model checkpoints.