Visual-Seeker: Naar Visueel-Natieve Multimodale Agentisch Zoeken via Actief Visueel Redeneren

Samenvatting

Multimodale grote taalmodellen (MLLM's) hebben indrukwekkende mogelijkheden aangetoond in veel visuele taken, maar ze hebben vaak moeite met feitelijke verankering wanneer ze worden geconfronteerd met complexe, open-wereldscenario's. Hoewel recente multimodale diepzoekagenten proberen dit probleem aan te pakken door gebruik te maken van externe tools, blijft het visueel-native zoekparadigma onderbelicht. Bestaande methoden vertrouwen voornamelijk op eenvoudige afbeeldingen met expliciete semantiek en tekstuele bewijstrajecten, waardoor het vermogen van de agent om multi-hop, cross-modale redenering en zoekopdrachten uit te voeren wordt beperkt. Om deze beperkingen aan te pakken, stellen we Visual-Seeker voor, een visueel-native multimodale diepzoekagent via actieve visuele redenering. In plaats van visie als een statische invoer te behandelen, besteedt onze agent actief aandacht aan fijnmazige visuele details en oogst dynamisch visueel bewijs tijdens het zoekproces. Om het visueel-native potentieel te ontgrendelen, ontwerpen we een pijplijn voor actieve visuele redeneringsdata en synthetiseren we 5K hoogwaardige multimodale trajecten voor modeltraining. Uitgebreide experimenten tonen de state-of-the-art prestaties aan op vijf uitdagende multimodale zoekbenchmarks, die zelfs verschillende propriëtaire modellen overtreffen, wat robuuste visueel-native redenering en zoekopdrachten in realistische webomgevingen valideert. De code en data zijn toegankelijk op: https://github.com/ZhengboZhang/Visual-Seeker.

English

Multimodal large language models (MLLMs) have demonstrated impressive capabilities in many visual tasks, but they often struggle with factual grounding when confronted with complex, open-world scenarios. While recent multimodal deep search agents attempt to address this issue by utilizing external tools, the visual-native search paradigm remains underexplored. Existing methods primarily rely on simple images with explicit semantics and text-only evidence trajectories, limiting the agent's ability to perform multi-hop, cross-modal reasoning and search. To address these limitations, we propose Visual-Seeker, a visual-native multimodal deep search agent via active visual reasoning. Rather than treating vision as a static input, our agent actively attends to fine-grained visual details, dynamically harvests visual evidence throughout the search process. To unlock its visual-native potential, we design an active visual reasoning data pipeline and synthesize 5K high-quality multimodal trajectories for model training. Extensive experiments demonstrate the state-of-the-art performance across five challenging multimodal search benchmarks, even surpassing several proprietary models, validating robust visual-native reasoning and search in real-world web environments. The code and data can be accessed at: https://github.com/ZhengboZhang/Visual-Seeker.