Visual-Seeker : Vers une recherche agentive multimodale native visuelle via le raisonnement visuel actif

Résumé

Les grands modèles de langage multimodaux (MLLMs) ont démontré des capacités impressionnantes dans de nombreuses tâches visuelles, mais peinent souvent à établir un ancrage factuel face à des scénarios complexes et ouverts. Alors que des agents de recherche profonde multimodaux récents tentent de résoudre ce problème en exploitant des outils externes, le paradigme de recherche native visuelle reste sous-exploré. Les méthodes existantes reposent principalement sur des images simples au sémantisme explicite et sur des trajectoires de preuves textuelles uniquement, limitant la capacité des agents à effectuer un raisonnement et une recherche multi-sauts et cross-modaux. Pour pallier ces limitations, nous proposons Visual-Seeker, un agent de recherche profonde multimodale native visuelle via raisonnement visuel actif. Plutôt que de considérer la vision comme une entrée statique, notre agent prête activement attention aux détails visuels fins, collectant dynamiquement des preuves visuelles tout au long du processus de recherche. Afin de libérer son potentiel natif visuel, nous concevons un pipeline de données de raisonnement visuel actif et synthétisons 5 000 trajectoires multimodales de haute qualité pour l'entraînement du modèle. Des expériences approfondies démontrent des performances de pointe sur cinq benchmarks de recherche multimodale exigeants, surpassant même plusieurs modèles propriétaires, validant ainsi un raisonnement et une recherche native visuelle robustes dans des environnements web réels. Le code et les données sont accessibles à l'adresse suivante : https://github.com/ZhengboZhang/Visual-Seeker.

English

Multimodal large language models (MLLMs) have demonstrated impressive capabilities in many visual tasks, but they often struggle with factual grounding when confronted with complex, open-world scenarios. While recent multimodal deep search agents attempt to address this issue by utilizing external tools, the visual-native search paradigm remains underexplored. Existing methods primarily rely on simple images with explicit semantics and text-only evidence trajectories, limiting the agent's ability to perform multi-hop, cross-modal reasoning and search. To address these limitations, we propose Visual-Seeker, a visual-native multimodal deep search agent via active visual reasoning. Rather than treating vision as a static input, our agent actively attends to fine-grained visual details, dynamically harvests visual evidence throughout the search process. To unlock its visual-native potential, we design an active visual reasoning data pipeline and synthesize 5K high-quality multimodal trajectories for model training. Extensive experiments demonstrate the state-of-the-art performance across five challenging multimodal search benchmarks, even surpassing several proprietary models, validating robust visual-native reasoning and search in real-world web environments. The code and data can be accessed at: https://github.com/ZhengboZhang/Visual-Seeker.