Vision-DeepResearch Benchmark: Ripensare la Ricerca Visiva e Testuale per i Modelli Linguistici Multimodali di Grandi Dimensioni
Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
February 2, 2026
Autori: Yu Zeng, Wenxuan Huang, Zhen Fang, Shuang Chen, Yufan Shen, Yishuo Cai, Xiaoman Wang, Zhenfei Yin, Lin Chen, Zehui Chen, Shiting Huang, Yiming Zhao, Yao Hu, Philip Torr, Wanli Ouyang, Shaosheng Cao
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto progredire il VQA e ora supportano sistemi di Vision-DeepResearch che utilizzano motori di ricerca per complesse attività di reperimento di informazioni visivo-testuali. Tuttavia, valutare queste capacità di ricerca visiva e testuale rimane difficile, e i benchmark esistenti presentano due limitazioni principali. In primo luogo, i benchmark esistenti non sono incentrati sulla ricerca visiva: le risposte che dovrebbero richiedere una ricerca visiva vengono spesso rivelate tramite indizi cross-testuali nelle domande testuali o possono essere dedotte dalla conoscenza mondiale pregressa degli MLLM attuali. In secondo luogo, uno scenario di valutazione eccessivamente idealizzato: sul fronte della ricerca per immagini, le informazioni necessarie possono spesso essere ottenute tramite una corrispondenza quasi esatta con l'immagine intera, mentre il lato della ricerca testuale è eccessivamente diretto e insufficientemente impegnativo.
Per affrontare questi problemi, abbiamo costruito il benchmark Vision-DeepResearch (VDR-Bench) comprendente 2.000 istanze VQA. Tutte le domande sono create attraverso un'attenta pipeline di curatela in più fasi e una rigorosa revisione esperta, progettata per valutare il comportamento dei sistemi Vision-DeepResearch in condizioni realistiche del mondo reale. Inoltre, per ovviare alle insufficienti capacità di recupero visivo degli MLLM attuali, proponiamo una semplice workflow di ricerca ritagliata multi-round. Questa strategia si è dimostrata efficace nel migliorare le prestazioni del modello in scenari realistici di recupero visivo.
In generale, i nostri risultati forniscono indicazioni pratiche per la progettazione di futuri sistemi multimodali di deep-research. Il codice sarà rilasciato su https://github.com/Osilly/Vision-DeepResearch.
English
Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.