Visual-Seeker: Hacia la Búsqueda Multimodal Agentiva Nativa Visual mediante Razonamiento Visual Activo

Resumen

Los modelos de lenguaje grandes multimodales (MLLMs) han demostrado capacidades impresionantes en muchas tareas visuales, pero a menudo presentan dificultades con la fundamentación factual al enfrentarse a escenarios complejos y de mundo abierto. Si bien los agentes de búsqueda multimodal profunda recientes intentan abordar este problema utilizando herramientas externas, el paradigma de búsqueda nativo visual permanece poco explorado. Los métodos existentes se basan principalmente en imágenes simples con semántica explícita y trayectorias de evidencia basadas únicamente en texto, lo que limita la capacidad del agente para realizar razonamiento y búsqueda multimodal y de múltiples saltos. Para solucionar estas limitaciones, proponemos Visual-Seeker, un agente de búsqueda multimodal profunda nativo visual mediante razonamiento visual activo. En lugar de tratar la visión como una entrada estática, nuestro agente atiende activamente a los detalles visuales finos, recopilando dinámicamente evidencia visual durante todo el proceso de búsqueda. Para desbloquear su potencial nativo visual, diseñamos un flujo de datos de razonamiento visual activo y sintetizamos 5,000 trayectorias multimodales de alta calidad para el entrenamiento del modelo. Experimentos exhaustivos demuestran un rendimiento de vanguardia en cinco desafiantes puntos de referencia de búsqueda multimodal, superando incluso a varios modelos propietarios, lo que valida un razonamiento y búsqueda nativa visual robusta en entornos web reales. El código y los datos están disponibles en: https://github.com/ZhengboZhang/Visual-Seeker.

English

Multimodal large language models (MLLMs) have demonstrated impressive capabilities in many visual tasks, but they often struggle with factual grounding when confronted with complex, open-world scenarios. While recent multimodal deep search agents attempt to address this issue by utilizing external tools, the visual-native search paradigm remains underexplored. Existing methods primarily rely on simple images with explicit semantics and text-only evidence trajectories, limiting the agent's ability to perform multi-hop, cross-modal reasoning and search. To address these limitations, we propose Visual-Seeker, a visual-native multimodal deep search agent via active visual reasoning. Rather than treating vision as a static input, our agent actively attends to fine-grained visual details, dynamically harvests visual evidence throughout the search process. To unlock its visual-native potential, we design an active visual reasoning data pipeline and synthesize 5K high-quality multimodal trajectories for model training. Extensive experiments demonstrate the state-of-the-art performance across five challenging multimodal search benchmarks, even surpassing several proprietary models, validating robust visual-native reasoning and search in real-world web environments. The code and data can be accessed at: https://github.com/ZhengboZhang/Visual-Seeker.