Hacia la Búsqueda Multimodal Agéntica de Largo Horizonte

Resumen

Los agentes de búsqueda profunda multimodal han demostrado un gran potencial para resolver tareas complejas mediante la recolección iterativa de evidencia textual y visual. Sin embargo, gestionar la información heterogénea y los altos costes de tokens asociados con las entradas multimodales en horizontes largos sigue siendo un desafío crítico, ya que los métodos existentes a menudo sufren de explosión de contexto o pérdida de señales visuales cruciales. Para abordar esto, proponemos un nuevo marco de búsqueda profunda multimodal de horizonte largo, denominado LMM-Searcher, centrado en un mecanismo de representación visual basado en archivos. Al descargar los recursos visuales a un sistema de archivos externo y mapearlos a identificadores textuales ligeros (UIDs), nuestro enfoque mitiga la sobrecarga de contexto mientras preserva la información multimodal para acceso futuro. Dotamos al agente con una herramienta de obtención de imágenes personalizada, permitiendo una estrategia de carga visual progresiva bajo demanda para percepción activa. Además, introducimos un pipeline de síntesis de datos diseñado para generar consultas que requieren razonamiento multimodal multi-salto complejo. Utilizando este pipeline, destilamos 12.000 trayectorias de alta calidad para ajustar Qwen3-VL-Thinking-30A3B y convertirlo en un agente de búsqueda profunda multimodal especializado. Experimentos exhaustivos en cuatro benchmarks demuestran que nuestro método escala exitosamente a horizontes de búsqueda de 100 turnos, logrando un rendimiento de vanguardia entre los modelos de código abierto en benchmarks desafiantes de horizonte largo como MM-BrowseComp y MMSearch-Plus, mientras también exhibe una fuerte generalización a través de diferentes modelos base. Nuestro código será liberado en https://github.com/RUCAIBox/LMM-Searcher.

English

Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.

Hacia la Búsqueda Multimodal Agéntica de Largo Horizonte

Towards Long-horizon Agentic Multimodal Search

Resumen

Support