ChatPaper.aiChatPaper

다중 이미지 이해에 대한 시각 및 언어 모델 벤치마킹: 지각, 지식, 추론, 그리고 다중 홉 추론

Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning

June 18, 2024
저자: Bingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales
cs.AI

초록

대규모 언어 모델(LLM)의 발전은 자연어 처리 분야의 응용 범위를 크게 확장시켰으며, 다중 모달 LLM은 이러한 능력을 시각 데이터의 통합 및 해석으로까지 확장하고 있습니다. 그러나 기존의 시각 언어 모델(VLM) 벤치마크는 주로 단일 이미지 입력에 초점을 맞추고 있어 다중 이미지 이해라는 중요한 측면을 간과하고 있습니다. 본 논문에서는 다중 이미지 간의 비교, 분석 및 추론 능력을 평가하기 위해 설계된 다중 이미지 관계 벤치마크(MIRB)를 소개합니다. 우리의 벤치마크는 지각, 시각적 세계 지식, 추론 및 다중 홉 추론의 네 가지 범주를 포함합니다. 다양한 오픈소스 및 클로즈드소스 모델에 대한 포괄적인 평가를 통해, 오픈소스 VLM이 단일 이미지 작업에서는 GPT-4V의 성능에 근접했지만 다중 이미지 추론 작업에서는 여전히 상당한 성능 격차가 있음을 보여줍니다. 또한, 최첨단 GPT-4V 모델조차도 우리의 벤치마크에서 어려움을 겪는 것으로 나타나, 이 분야의 추가 연구와 개발이 필요함을 강조합니다. 우리는 MIRB의 기여가 차세대 다중 모달 모델 개발을 위한 테스트베드로 활용될 수 있기를 기대합니다.
English
The advancement of large language models (LLMs) has significantly broadened the scope of applications in natural language processing, with multi-modal LLMs extending these capabilities to integrate and interpret visual data. However, existing benchmarks for visual language models (VLMs) predominantly focus on single-image inputs, neglecting the crucial aspect of multi-image understanding. In this paper, we introduce a Multi-Image Relational Benchmark MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across multiple images. Our benchmark encompasses four categories: perception, visual world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive evaluation of a wide range of open-source and closed-source models, we demonstrate that while open-source VLMs were shown to approach the performance of GPT-4V in single-image tasks, a significant performance gap remains in multi-image reasoning tasks. Our findings also reveal that even the state-of-the-art GPT-4V model struggles with our benchmark, underscoring the need for further research and development in this area. We believe our contribution of MIRB could serve as a testbed for developing the next-generation multi-modal models.

Summary

AI-Generated Summary

PDF155December 4, 2024