Benchmark Vision-DeepResearch: Repensando a Busca Visual e Textual para Modelos de Linguagem Multimodais de Grande Escala

Resumo

Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) avançaram significativamente na área de VQA (Visual Question Answering) e agora suportam sistemas de Visão-PesquisaAprofundada que utilizam motores de busca para investigação factual complexa envolvendo elementos visuais e textuais. No entanto, a avaliação dessas capacidades de busca visual e textual ainda é desafiadora, e os benchmarks existentes apresentam duas limitações principais. Primeiro, os benchmarks atuais não são centrados na busca visual: respostas que deveriam exigir busca visual são frequentemente vazadas por meio de pistas textuais cruzadas nas perguntas ou podem ser inferidas a partir do conhecimento mundial prévio incorporado nos MLLMs atuais. Segundo, um cenário de avaliação excessivamente idealizado: no lado da busca por imagens, a informação necessária pode frequentemente ser obtida através de correspondência quase exata com a imagem completa, enquanto o lado da busca textual é excessivamente direto e insuficientemente desafiador. Para resolver essas questões, construímos o benchmark Visão-PesquisaAprofundada (VDR-Bench) composto por 2.000 instâncias de VQA. Todas as perguntas foram criadas por meio de um cuidadoso pipeline de curadoria em múltiplas etapas e revisão rigorosa por especialistas, projetado para avaliar o comportamento dos sistemas de Visão-PesquisaAprofundada sob condições realistas do mundo real. Além disso, para abordar as capacidades insuficientes de recuperação visual dos MLLMs atuais, propomos um fluxo de trabalho simples de busca com recorte em múltiplas rodadas. Essa estratégia demonstrou melhorar efetivamente o desempenho do modelo em cenários realistas de recuperação visual. No geral, nossos resultados fornecem orientações práticas para o projeto de futuros sistemas multimodais de pesquisa aprofundada. O código será disponibilizado em https://github.com/Osilly/Vision-DeepResearch.

English

Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.