Vision-DeepResearch Benchmark: Переосмысление визуального и текстового поиска для мультимодальных больших языковых моделей

Аннотация

Мультимодальные большие языковые модели (MLLM) достигли прогресса в области визуального вопросно-ответных систем (VQA) и теперь поддерживают системы Vision-DeepResearch, использующие поисковые системы для сложного визуально-текстового поиска фактов. Однако оценка этих визуальных и текстовых поисковых способностей остается сложной задачей, и существующие эталоны имеют два основных ограничения. Во-первых, существующие эталоны не ориентированы на визуальный поиск: ответы, требующие визуального поиска, часто раскрываются через межтекстовые подсказки в текстовых вопросах или могут быть выведены из априорных знаний мира, имеющихся в текущих MLLM. Во-вторых, излишне идеализированный сценарий оценки: со стороны поиска по изображениям необходимая информация часто может быть получена путем почти точного соответствия с полным изображением, в то время как текстовый поиск является чрезмерно прямым и недостаточно сложным. Для решения этих проблем мы создали эталон Vision-DeepResearch (VDR-Bench), состоящий из 2000 экземпляров VQA. Все вопросы созданы с помощью тщательного многоэтапного процесса курации и строгого экспертного обзора, предназначенного для оценки поведения систем Vision-DeepResearch в реалистичных условиях реального мира. Кроме того, для решения проблемы недостаточных возможностей визуального поиска современных MLLM мы предлагаем простой рабочий процесс многократного поиска по фрагментам изображения. Показано, что эта стратегия эффективно улучшает производительность модели в реалистичных сценариях визуального поиска. В целом, наши результаты предоставляют практические рекомендации для проектирования будущих мультимодальных систем углубленного поиска. Код будет доступен по адресу https://github.com/Osilly/Vision-DeepResearch.

English

Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.

Vision-DeepResearch Benchmark: Переосмысление визуального и текстового поиска для мультимодальных больших языковых моделей

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Аннотация

Support