ChatPaper.aiChatPaper

SEED-Bench-2-Plus: 텍스트가 풍부한 시각적 이해를 통해 멀티모달 대규모 언어 모델 벤치마킹

SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

April 25, 2024
저자: Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan
cs.AI

초록

텍스트가 풍부한 시각적 콘텐츠를 이해하는 것은 다중모달 대형 언어 모델(MLLM)의 실질적인 적용에 있어 매우 중요합니다. 왜냐하면 텍스트가 풍부한 시나리오는 이미지 내에 광범위한 텍스트가 포함된 형태로 실생활에서 흔히 발견되기 때문입니다. 최근, 인상적인 다재다능함을 가진 MLLM의 등장은 우리가 MLLM에 기대할 수 있는 기준을 한층 높였습니다. 그러나 현재의 MLLM 벤치마크는 주로 일반적인 시각적 이해 능력을 평가하는 데 초점을 맞추고 있어, 텍스트가 풍부한 시나리오에서의 숙련도는 아직 포괄적이고 객관적으로 평가되지 못했습니다. 본 연구에서는 MLLM의 텍스트가 풍부한 시각적 이해 능력을 평가하기 위해 특별히 설계된 벤치마크인 SEED-Bench-2-Plus를 소개합니다. 우리의 벤치마크는 정확한 인간 주석이 달린 2.3K개의 객관식 질문으로 구성되어 있으며, 차트, 지도, 웹 페이지라는 세 가지 광범위한 범주를 아우릅니다. 각 범주는 실생활에서 발견되는 다양한 텍스트가 풍부한 시나리오를 포괄하며, 그 자체의 복잡성과 다양성으로 인해 실제 세계의 텍스트가 풍부한 환경을 효과적으로 시뮬레이션합니다. 우리는 GPT-4V, Gemini-Pro-Vision, Claude-3-Opus를 포함한 34개의 주요 MLLM에 대한 철저한 평가를 수행하고, 텍스트가 풍부한 시각적 이해에서 MLLM의 현재 한계를 강조합니다. 우리의 작업이 기존 MLLM 벤치마크에 유용한 추가 자료로 활용되어, 텍스트가 풍부한 시각적 이해 분야에서의 통찰력 있는 관찰을 제공하고 추가 연구를 촉진하는 데 기여하기를 바랍니다. 데이터셋과 평가 코드는 https://github.com/AILab-CVC/SEED-Bench에서 확인할 수 있습니다.
English
Comprehending text-rich visual content is paramount for the practical application of Multimodal Large Language Models (MLLMs), since text-rich scenarios are ubiquitous in the real world, which are characterized by the presence of extensive texts embedded within images. Recently, the advent of MLLMs with impressive versatility has raised the bar for what we can expect from MLLMs. However, their proficiency in text-rich scenarios has yet to be comprehensively and objectively assessed, since current MLLM benchmarks primarily focus on evaluating general visual comprehension. In this work, we introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating text-rich visual comprehension of MLLMs. Our benchmark comprises 2.3K multiple-choice questions with precise human annotations, spanning three broad categories: Charts, Maps, and Webs, each of which covers a wide spectrum of text-rich scenarios in the real world. These categories, due to their inherent complexity and diversity, effectively simulate real-world text-rich environments. We further conduct a thorough evaluation involving 34 prominent MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the current limitations of MLLMs in text-rich visual comprehension. We hope that our work can serve as a valuable addition to existing MLLM benchmarks, providing insightful observations and inspiring further research in the area of text-rich visual comprehension with MLLMs. The dataset and evaluation code can be accessed at https://github.com/AILab-CVC/SEED-Bench.

Summary

AI-Generated Summary

PDF91December 15, 2024