ConTextual: 대규모 멀티모달 모델의 문맥 민감적 텍스트 풍부 시각적 추론 능력 평가
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
January 24, 2024
저자: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
cs.AI
초록
최근 AI 분야의 발전으로 인해 텍스트와 이미지 내 시각적 콘텐츠에 대한 복합적 추론이 가능한 대규모 멀티모달 모델(Large Multimodal Models, LMMs)이 개발되었습니다(예: 공공 장소에서의 지도 탐색). 본 논문은 LMMs의 문맥 민감적 텍스트-시각 추론 능력을 평가하기 위해 특별히 설계된 지침으로 구성된 새로운 벤치마크인 ConTextual을 소개합니다. ConTextual은 시간 읽기, 내비게이션, 쇼핑 등 다양한 실제 시나리오를 강조하며, 텍스트와 시각적 요소 간의 상호작용에 대한 깊은 이해를 요구합니다. 연구 결과, 가장 우수한 성능을 보인 LMM인 GPT-4V(ision)와 인간의 능력 간에는 30.8%의 상당한 성능 격차가 존재하며, 이는 문맥 민감적 텍스트-시각 추론 분야에서 개선의 여지가 크다는 것을 시사합니다. 특히, GPT-4V는 밈(meme) 및 명언 해석과 같은 추상적 범주에서 뛰어난 성능을 보였지만, 전반적인 성능은 여전히 인간에 미치지 못했습니다. 인간 평가 외에도 GPT-4를 활용한 자동 평가 지표를 사용하여 유사한 성능 격차를 확인하였습니다. 또한, 다양한 시각적 문맥에 대한 세분화된 평가와 정성적 분석을 수행함으로써 향후 LMM 설계의 발전을 위한 견고한 프레임워크를 제공합니다.
https://con-textual.github.io/
English
Recent advancements in AI have led to the development of large multimodal
models (LMMs) capable of processing complex tasks involving joint reasoning
over text and visual content in the image (e.g., navigating maps in public
places). This paper introduces ConTextual, a novel benchmark comprising
instructions designed explicitly to evaluate LMMs' ability to perform
context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse
real-world scenarios (e.g., time-reading, navigation, shopping and more)
demanding a deeper understanding of the interactions between textual and visual
elements. Our findings reveal a significant performance gap of 30.8% between
the best-performing LMM, GPT-4V(ision), and human capabilities using human
evaluation indicating substantial room for improvement in context-sensitive
text-rich visual reasoning. Notably, while GPT-4V excelled in abstract
categories like meme and quote interpretation, its overall performance still
lagged behind humans. In addition to human evaluations, we also employed
automatic evaluation metrics using GPT-4, uncovering similar trends in
performance disparities. We also perform a fine-grained evaluation across
diverse visual contexts and provide qualitative analysis which provides a
robust framework for future advancements in the LMM design.
https://con-textual.github.io/