Benchmark Vision-DeepResearch : Repenser la recherche visuelle et textuelle pour les modèles de langage multimodaux de grande taille

Résumé

Les modèles de langage de grande taille multimodaux (MLLMs) ont fait progresser les systèmes de question-réponse visuelle (VQA) et prennent désormais en charge les systèmes Vision-DeepResearch qui utilisent des moteurs de recherche pour la recherche complexe de faits visuels-textuels. Cependant, l'évaluation de ces capacités de recherche visuelle et textuelle reste difficile, et les benchmarks existants présentent deux limitations majeures. Premièrement, les benchmarks actuels ne sont pas centrés sur la recherche visuelle : les réponses qui devraient nécessiter une recherche visuelle sont souvent divulguées par des indices textuels croisés dans les questions ou peuvent être déduites des connaissances mondiales préalables des MLLMs actuels. Deuxièmement, un scénario d'évaluation trop idéalisé : côté recherche d'images, les informations requises peuvent souvent être obtenues par correspondance quasi exacte avec l'image entière, tandis que la recherche textuelle est trop directe et insuffisamment stimulante. Pour résoudre ces problèmes, nous construisons le benchmark Vision-DeepResearch (VDR-Bench) comprenant 2 000 instances VQA. Toutes les questions sont créées via un pipeline de curation multi-étapes rigoureux et une revue experte, conçus pour évaluer le comportement des systèmes Vision-DeepResearch dans des conditions réalistes du monde réel. De plus, pour pallier les capacités de récupération visuelle insuffisantes des MLLMs actuels, nous proposons un workflow simple de recherche par recadrage multi-tours. Cette stratégique s'avère efficace pour améliorer les performances des modèles dans des scénarios réalistes de récupération visuelle. Globalement, nos résultats fournissent des orientations pratiques pour la conception de futurs systèmes de recherche approfondie multimodaux. Le code sera publié sur https://github.com/Osilly/Vision-DeepResearch.

English

Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.

Benchmark Vision-DeepResearch : Repenser la recherche visuelle et textuelle pour les modèles de langage multimodaux de grande taille

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Résumé

Support