ChatPaper.aiChatPaper

Измерение производительности многокартинного понимания в моделях зрения и языка: восприятие, знание, рассуждения и многошаговые рассуждения

Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning

June 18, 2024
Авторы: Bingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales
cs.AI

Аннотация

Развитие крупных языковых моделей (LLM) значительно расширило область применения в обработке естественного языка, а мультимодальные LLM расширяют эти возможности для интеграции и интерпретации визуальных данных. Однако существующие эталоны для визуальных языковых моделей (VLM) в основном сосредоточены на входах из одного изображения, игнорируя важный аспект понимания множественных изображений. В данной статье мы представляем Мульти-Изображенческий Реляционный Эталон (MIRB), разработанный для оценки способности VLM сравнивать, анализировать и рассуждать по всем изображениям. Наш эталон включает четыре категории: восприятие, знание визуального мира, рассуждения и многопереходные рассуждения. Через всестороннюю оценку широкого спектра моделей с открытым и закрытым исходным кодом мы демонстрируем, что, хотя модели VLM с открытым исходным кодом показали результаты, приближающиеся к производительности GPT-4V в задачах с одним изображением, существует значительный разрыв в производительности в задачах рассуждения по множеству изображений. Наши результаты также показывают, что даже передовая модель GPT-4V испытывает трудности с нашим эталоном, подчеркивая необходимость дальнейших исследований и разработок в этой области. Мы считаем, что наш вклад в MIRB может послужить площадкой для разработки многомодальных моделей следующего поколения.
English
The advancement of large language models (LLMs) has significantly broadened the scope of applications in natural language processing, with multi-modal LLMs extending these capabilities to integrate and interpret visual data. However, existing benchmarks for visual language models (VLMs) predominantly focus on single-image inputs, neglecting the crucial aspect of multi-image understanding. In this paper, we introduce a Multi-Image Relational Benchmark MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across multiple images. Our benchmark encompasses four categories: perception, visual world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive evaluation of a wide range of open-source and closed-source models, we demonstrate that while open-source VLMs were shown to approach the performance of GPT-4V in single-image tasks, a significant performance gap remains in multi-image reasoning tasks. Our findings also reveal that even the state-of-the-art GPT-4V model struggles with our benchmark, underscoring the need for further research and development in this area. We believe our contribution of MIRB could serve as a testbed for developing the next-generation multi-modal models.

Summary

AI-Generated Summary

PDF155December 4, 2024