Buscar Más, Pensar Menos: Repensando la Búsqueda Agéntica de Largo Horizonte para la Eficiencia y la Generalización

Resumen

Los agentes de investigación profunda recientes mejoran principalmente el rendimiento mediante la escalación de la profundidad de razonamiento, pero esto conlleva altos costos de inferencia y latencia en escenarios intensivos en búsqueda. Además, la generalización entre entornos de investigación heterogéneos sigue siendo un desafío. En este trabajo, proponemos Buscar Más, Pensar Menos (SMTL), un marco para búsqueda agentiva de largo horizonte que aborda tanto la eficiencia como la generalización. SMTL reemplaza el razonamiento secuencial con la adquisición paralela de evidencias, permitiendo una gestión eficiente del contexto bajo presupuestos restringidos. Para apoyar la generalización entre tipos de tareas, introducimos además una canalización unificada de síntesis de datos que construye tareas de búsqueda abarcando tanto escenarios de respuesta a preguntas deterministas como de investigación abierta, con métricas de evaluación apropiadas para cada tarea. Entrenamos un agente de extremo a extremo usando ajuste fino supervisado y aprendizaje por refuerzo, logrando un rendimiento sólido y frecuentemente de vanguardia en benchmarks que incluyen BrowseComp (48.6%), GAIA (75.7%), Xbench (82.0%) y DeepResearch Bench (45.9%). En comparación con Mirothinker-v1.0, SMTL con un máximo de 100 pasos de interacción reduce el número promedio de pasos de razonamiento en BrowseComp en un 70.7%, mientras mejora la precisión.

English

Recent deep research agents primarily improve performance by scaling reasoning depth, but this leads to high inference cost and latency in search-intensive scenarios. Moreover, generalization across heterogeneous research settings remains challenging. In this work, we propose Search More, Think Less (SMTL), a framework for long-horizon agentic search that targets both efficiency and generalization. SMTL replaces sequential reasoning with parallel evidence acquisition, enabling efficient context management under constrained context budgets. To support generalization across task types, we further introduce a unified data synthesis pipeline that constructs search tasks spanning both deterministic question answering and open-ended research scenarios with task appropriate evaluation metrics. We train an end-to-end agent using supervised fine-tuning and reinforcement learning, achieving strong and often state of the art performance across benchmarks including BrowseComp (48.6\%), GAIA (75.7\%), Xbench (82.0\%), and DeepResearch Bench (45.9\%). Compared to Mirothinker-v1.0, SMTL with maximum 100 interaction steps reduces the average number of reasoning steps on BrowseComp by 70.7\%, while improving accuracy.

Buscar Más, Pensar Menos: Repensando la Búsqueda Agéntica de Largo Horizonte para la Eficiencia y la Generalización

Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Resumen

Support