Benchmark Vision-DeepResearch: Repensando la Búsqueda Visual y Textual para Modelos de Lenguaje Grandes Multimodales

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han avanzado en VQA y ahora soportan sistemas de Búsqueda Profunda Visual que utilizan motores de búsqueda para tareas complejas de localización de información visual-textual. Sin embargo, evaluar estas capacidades de búsqueda visual y textual sigue siendo difícil, y los puntos de referencia existentes presentan dos limitaciones principales. En primer lugar, los benchmarks existentes no están centrados en la búsqueda visual: las respuestas que deberían requerir búsqueda visual a menudo se filtran mediante pistas textuales cruzadas en las preguntas o pueden inferirse a partir del conocimiento mundial previo en los MLLMs actuales. En segundo lugar, un escenario de evaluación demasiado idealizado: en el lado de la búsqueda por imagen, la información requerida a menudo puede obtenerse mediante una coincidencia casi exacta con la imagen completa, mientras que el lado de la búsqueda textual es demasiado directo e insuficientemente desafiante. Para abordar estos problemas, construimos el benchmark Vision-DeepResearch (VDR-Bench) que comprende 2.000 instancias de VQA. Todas las preguntas se crean mediante una cuidadosa canalización de curación en múltiples etapas y una rigurosa revisión experta, diseñada para evaluar el comportamiento de los sistemas de Búsqueda Profunda Visual en condiciones realistas del mundo real. Además, para abordar las capacidades insuficientes de recuperación visual de los MLLMs actuales, proponemos un sencillo flujo de trabajo de búsqueda recortada en múltiples rondas. Se demuestra que esta estrategia mejora efectivamente el rendimiento del modelo en escenarios realistas de recuperación visual. En general, nuestros resultados proporcionan una guía práctica para el diseño de futuros sistemas multimodales de investigación profunda. El código se publicará en https://github.com/Osilly/Vision-DeepResearch.

English

Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.