Vision-DeepResearch Benchmark: Neubewertung visueller und textueller Suche für multimodale große Sprachmodelle
Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
February 2, 2026
Autoren: Yu Zeng, Wenxuan Huang, Zhen Fang, Shuang Chen, Yufan Shen, Yishuo Cai, Xiaoman Wang, Zhenfei Yin, Lin Chen, Zehui Chen, Shiting Huang, Yiming Zhao, Yao Hu, Philip Torr, Wanli Ouyang, Shaosheng Cao
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) haben Fortschritte im Bereich Visual Question Answering (VQA) erzielt und unterstützen nun Vision-DeepResearch-Systeme, die Suchmaschinen für komplexe visuell-textuelle Faktenrecherchen nutzen. Die Bewertung dieser visuellen und textuellen Suchfähigkeiten gestaltet sich jedoch nach wie vor schwierig, und bestehende Benchmarks weisen zwei gravierende Einschränkungen auf. Erstens sind bestehende Benchmarks nicht visuell-suchzentriert: Antworten, die eine visuelle Suche erfordern sollten, werden häufig durch textübergreifende Hinweise in den Textfragen preisgegeben oder können aus dem Weltwissen aktueller MLLMs abgeleitet werden. Zweitens ein übermäßig idealisiertes Bewertungsszenario: Auf der Bildsuchseite können die erforderlichen Informationen oft durch nahezu exaktes Abgleichen des gesamten Bildes gewonnen werden, während die Textsuchseite zu direkt und unzureichend anspruchsvoll ist. Um diese Probleme zu addressieren, konstruieren wir den Vision-DeepResearch-Benchmark (VDR-Bench) mit 2.000 VQA-Instanzen. Alle Fragen werden durch einen sorgfältigen, mehrstufigen Kuratierungsprozess und strenge Expertenüberprüfung erstellt, um das Verhalten von Vision-DeepResearch-Systemen unter realistischen, praxisnahen Bedingungen zu bewerten. Darüber hinaus schlagen wir, um die unzureichenden visuellen Retrieval-Fähigkeiten aktueller MLLMs zu addressieren, einen einfachen Workflow für die mehrfache Suche in Bildausschnitten vor. Diese Strategie erweist sich als wirksam zur Verbesserung der Modellleistung in realistischen visuellen Retrieval-Szenarien. Insgesamt liefern unsere Ergebnisse praktische Leitlinien für die Gestaltung zukünftiger multimodaler DeepResearch-Systeme. Der Code wird unter https://github.com/Osilly/Vision-DeepResearch veröffentlicht.
English
Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.