Vision-DeepResearch Benchmark: Een Herbezinning op Visueel en Tekstueel Zoeken voor Multimodale Grote Taalmodellen
Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
February 2, 2026
Auteurs: Yu Zeng, Wenxuan Huang, Zhen Fang, Shuang Chen, Yufan Shen, Yishuo Cai, Xiaoman Wang, Zhenfei Yin, Lin Chen, Zehui Chen, Shiting Huang, Yiming Zhao, Yao Hu, Philip Torr, Wanli Ouyang, Shaosheng Cao
cs.AI
Samenvatting
Multimodale Large Language Models (MLLM's) hebben vraag-antwoordsystemen voor visuele inhoud (VQA) verder gebracht en ondersteunen nu Vision-DeepResearch-systemen die zoekmachines gebruiken voor complexe visueel-textuele feitenvinding. Het evalueren van deze visuele en tekstuele zoekcapaciteiten blijft echter moeilijk, en bestaande benchmarks kampen met twee grote beperkingen. Ten eerste zijn bestaande benchmarks niet visueel zoek-gecentreerd: antwoorden die visueel zoeken vereisen, worden vaak uitgelekt via kruislingere tekstuele aanwijzingen in de tekstvragen of kunnen worden afgeleid uit de wereldkennis die huidige MLLM's al bezitten. Ten tweede een te geïdealiseerd evaluatiescenario: aan beeldzoekzijde kan de benodigde informatie vaak verkregen worden via bijna exacte matching met de volledige afbeelding, terwijl de tekstzoekzijde te direct en onvoldoende uitdagend is. Om deze problemen aan te pakken, construeren we de Vision-DeepResearch-benchmark (VDR-Bench) bestaande uit 2.000 VQA-instanties. Alle vragen worden gecreëerd via een zorgvuldig, meerfasig curatieproces en rigoureuze expertreview, ontworpen om het gedrag van Vision-DeepResearch-systemen onder realistische, praktijkomstandigheden te beoordelen. Bovendien, om de ontoereikende visuele retriev
English
Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.