ChatPaper.aiChatPaper

REDSearcher: Un Marco Escalable y Rentable para Agentes de Búsqueda de Horizonte Largo

REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

February 15, 2026
Autores: Zheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang, Yue Yang, Guohai Xu, Chenxiao Zhao, Cheng Xiang, Shengchao Hu, Dongdong Kuang, Ming Liu, Bing Qin, Xing Yu
cs.AI

Resumen

Los modelos de lenguaje grandes están transitando de motores de conocimiento de propósito general a solucionadores de problemas del mundo real, sin embargo, optimizarlos para tareas de búsqueda profunda sigue siendo un desafío. El cuello de botella central reside en la extrema escasez de trayectorias de búsqueda y señales de recompensa de alta calidad, derivada de la dificultad de construir tasks de largo horizonte de manera escalable y del alto costo de las ejecuciones (rollouts) que requieren intensa interacción con llamadas a herramientas externas. Para abordar estos desafíos, proponemos REDSearcher, un marco unificado que codiseña la síntesis de tareas complejas, el entrenamiento intermedio (mid-training) y el entrenamiento posterior (post-training) para la optimización escalable de agentes de búsqueda. Específicamente, REDSearcher introduce las siguientes mejoras: (1) Planteamos la síntesis de tareas como una optimización con doble restricción, donde la dificultad de la tarea se gobierna con precisión mediante la topología de grafos y la dispersión de evidencias, permitiendo la generación escalable de tareas complejas y de alta calidad. (2) Introducimos consultas aumentadas con herramientas para fomentar el uso proactivo de estas en lugar del recuerdo pasivo. (3) Durante el entrenamiento intermedio, reforzamos las capacidades atómicas centrales—conocimiento, planificación y llamada a funciones—reduciendo sustancialmente el costo de recolectar trayectorias de alta calidad para el entrenamiento posterior. (4) Construimos un entorno simulado local que permite una iteración algorítmica rápida y de bajo costo para experimentos de aprendizaje por refuerzo. En diversos benchmarks, tanto para agentes de búsqueda solo de texto como multimodales, nuestro enfoque logra un rendimiento de vanguardia. Para facilitar la investigación futura sobre agentes de búsqueda de largo horizonte, liberaremos 10.000 trayectorias de búsqueda textual complejas de alta calidad, 5.000 trayectorias multimodales y un conjunto de 1.000 consultas para RL de texto, junto con el código y los puntos de control (checkpoints) de los modelos.
English
Large language models are transitioning from generalpurpose knowledge engines to realworld problem solvers, yet optimizing them for deep search tasks remains challenging. The central bottleneck lies in the extreme sparsity of highquality search trajectories and reward signals, arising from the difficulty of scalable longhorizon task construction and the high cost of interactionheavy rollouts involving external tool calls. To address these challenges, we propose REDSearcher, a unified framework that codesigns complex task synthesis, midtraining, and posttraining for scalable searchagent optimization. Specifically, REDSearcher introduces the following improvements: (1) We frame task synthesis as a dualconstrained optimization, where task difficulty is precisely governed by graph topology and evidence dispersion, allowing scalable generation of complex, highquality tasks. (2) We introduce toolaugmented queries to encourage proactive tool use rather than passive recall.(3) During midtraining, we strengthen core atomic capabilities knowledge, planning, and function calling substantially reducing the cost of collecting highquality trajectories for downstream training. (4) We build a local simulated environment that enables rapid, lowcost algorithmic iteration for reinforcement learning experiments. Across both textonly and multimodal searchagent benchmarks, our approach achieves stateoftheart performance. To facilitate future research on longhorizon search agents, we will release 10K highquality complex text search trajectories, 5K multimodal trajectories and 1K text RL query set, and together with code and model checkpoints.
PDF172February 18, 2026