Visual-Seeker: Zu einer visuell-nativen multimodalen agentischen Suche durch aktives visuelles Schließen

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben beeindruckende Fähigkeiten bei vielen visuellen Aufgaben gezeigt, haben jedoch oft Probleme mit der faktischen Verankerung, wenn sie mit komplexen, offenen Weltszenarien konfrontiert werden. Während neuere multimodale Tiefensuch-Agenten versuchen, dieses Problem durch die Nutzung externer Werkzeuge zu lösen, bleibt das visuell-native Suchparadigma bislang wenig erforscht. Bestehende Methoden basieren hauptsächlich auf einfachen Bildern mit expliziter Semantik und rein textbasierten Evidenzpfaden, was die Fähigkeit des Agenten zur mehrstufigen, modalitätsübergreifenden Argumentation und Suche einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir Visual-Seeker vor, einen visuell-nativen multimodalen Tiefensuch-Agenten mittels aktiver visueller Argumentation. Anstatt Vision als statischen Input zu behandeln, richtet unser Agent die Aufmerksamkeit aktiv auf feinkörnige visuelle Details und sammelt dynamisch visuelle Evidenzen während des Suchprozesses. Um sein visuell-natives Potenzial zu entfalten, entwerfen wir eine Datenpipeline für aktive visuelle Argumentation und synthetisieren 5.000 hochwertige multimodale Trajektorien für das Modelltraining. Umfangreiche Experimente belegen die hochmoderne Leistung über fünf anspruchsvolle multimodale Suchbenchmarks hinweg, wobei sogar mehrere proprietäre Modelle übertroffen werden, was eine robuste visuell-native Argumentation und Suche in realen Webumgebungen bestätigt. Der Code und die Daten sind abrufbar unter: https://github.com/ZhengboZhang/Visual-Seeker.

English

Multimodal large language models (MLLMs) have demonstrated impressive capabilities in many visual tasks, but they often struggle with factual grounding when confronted with complex, open-world scenarios. While recent multimodal deep search agents attempt to address this issue by utilizing external tools, the visual-native search paradigm remains underexplored. Existing methods primarily rely on simple images with explicit semantics and text-only evidence trajectories, limiting the agent's ability to perform multi-hop, cross-modal reasoning and search. To address these limitations, we propose Visual-Seeker, a visual-native multimodal deep search agent via active visual reasoning. Rather than treating vision as a static input, our agent actively attends to fine-grained visual details, dynamically harvests visual evidence throughout the search process. To unlock its visual-native potential, we design an active visual reasoning data pipeline and synthesize 5K high-quality multimodal trajectories for model training. Extensive experiments demonstrate the state-of-the-art performance across five challenging multimodal search benchmarks, even surpassing several proprietary models, validating robust visual-native reasoning and search in real-world web environments. The code and data can be accessed at: https://github.com/ZhengboZhang/Visual-Seeker.