Vision-DeepResearch Benchmark: Ripensare la Ricerca Visiva e Testuale per i Modelli Linguistici Multimodali di Grandi Dimensioni

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto progredire il VQA e ora supportano sistemi di Vision-DeepResearch che utilizzano motori di ricerca per complesse attività di reperimento di informazioni visivo-testuali. Tuttavia, valutare queste capacità di ricerca visiva e testuale rimane difficile, e i benchmark esistenti presentano due limitazioni principali. In primo luogo, i benchmark esistenti non sono incentrati sulla ricerca visiva: le risposte che dovrebbero richiedere una ricerca visiva vengono spesso rivelate tramite indizi cross-testuali nelle domande testuali o possono essere dedotte dalla conoscenza mondiale pregressa degli MLLM attuali. In secondo luogo, uno scenario di valutazione eccessivamente idealizzato: sul fronte della ricerca per immagini, le informazioni necessarie possono spesso essere ottenute tramite una corrispondenza quasi esatta con l'immagine intera, mentre il lato della ricerca testuale è eccessivamente diretto e insufficientemente impegnativo. Per affrontare questi problemi, abbiamo costruito il benchmark Vision-DeepResearch (VDR-Bench) comprendente 2.000 istanze VQA. Tutte le domande sono create attraverso un'attenta pipeline di curatela in più fasi e una rigorosa revisione esperta, progettata per valutare il comportamento dei sistemi Vision-DeepResearch in condizioni realistiche del mondo reale. Inoltre, per ovviare alle insufficienti capacità di recupero visivo degli MLLM attuali, proponiamo una semplice workflow di ricerca ritagliata multi-round. Questa strategia si è dimostrata efficace nel migliorare le prestazioni del modello in scenari realistici di recupero visivo. In generale, i nostri risultati forniscono indicazioni pratiche per la progettazione di futuri sistemi multimodali di deep-research. Il codice sarà rilasciato su https://github.com/Osilly/Vision-DeepResearch.

English

Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.

Vision-DeepResearch Benchmark: Ripensare la Ricerca Visiva e Testuale per i Modelli Linguistici Multimodali di Grandi Dimensioni

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Abstract

Support