Visual-Seeker: Rumo à Busca Agentiva Multimodal Visual-Nativa via Raciocínio Visual Ativo

Resumo

Modelos de linguagem grandes multimodais (MLLMs) demonstraram capacidades impressionantes em diversas tarefas visuais, mas frequentemente enfrentam dificuldades com ancoragem factual quando confrontados com cenários complexos de mundo aberto. Embora agentes de busca multimodal profunda tentem resolver essa questão utilizando ferramentas externas, o paradigma de busca nativamente visual ainda permanece subexplorado. Métodos existentes dependem principalmente de imagens simples com semântica explícita e trajetórias de evidências baseadas apenas em texto, limitando a capacidade do agente de realizar raciocínio e busca multi-salto e cross-modal. Para superar essas limitações, propomos o Visual-Seeker, um agente de busca multimodal profunda nativamente visual por meio de raciocínio visual ativo. Em vez de tratar a visão como uma entrada estática, nosso agente atenta-se ativamente a detalhes visuais sutis, coletando dinamicamente evidências visuais ao longo do processo de busca. Para desbloquear seu potencial nativamente visual, projetamos um pipeline de dados para raciocínio visual ativo e sintetizamos 5.000 trajetórias multimodais de alta qualidade para treinamento do modelo. Experimentos extensivos demonstram desempenho de ponta em cinco benchmarks desafiadores de busca multimodal, superando até mesmo diversos modelos proprietários, validando assim o raciocínio e a busca nativamente visual robustos em ambientes reais da web. O código e os dados podem ser acessados em: https://github.com/ZhengboZhang/Visual-Seeker.

English

Multimodal large language models (MLLMs) have demonstrated impressive capabilities in many visual tasks, but they often struggle with factual grounding when confronted with complex, open-world scenarios. While recent multimodal deep search agents attempt to address this issue by utilizing external tools, the visual-native search paradigm remains underexplored. Existing methods primarily rely on simple images with explicit semantics and text-only evidence trajectories, limiting the agent's ability to perform multi-hop, cross-modal reasoning and search. To address these limitations, we propose Visual-Seeker, a visual-native multimodal deep search agent via active visual reasoning. Rather than treating vision as a static input, our agent actively attends to fine-grained visual details, dynamically harvests visual evidence throughout the search process. To unlock its visual-native potential, we design an active visual reasoning data pipeline and synthesize 5K high-quality multimodal trajectories for model training. Extensive experiments demonstrate the state-of-the-art performance across five challenging multimodal search benchmarks, even surpassing several proprietary models, validating robust visual-native reasoning and search in real-world web environments. The code and data can be accessed at: https://github.com/ZhengboZhang/Visual-Seeker.