IV-Bench: 멀티모달 LLM을 위한 이미지 기반 비디오 인식 및 추론 벤치마크
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs
April 21, 2025
저자: David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin
cs.AI
초록
기존의 다중모달 대형 언어 모델(MLLM) 평가 프레임워크는 주로 이미지 추론이나 일반적인 비디오 이해 작업에 초점을 맞추고 있으며, 비디오 이해에서 이미지 문맥의 중요한 역할을 크게 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 이미지 기반 비디오 인식 및 추론을 평가하기 위한 첫 번째 포괄적인 벤치마크인 IV-Bench를 제안합니다. IV-Bench는 13개의 작업(7개의 인식 작업과 6개의 추론 작업)과 5개의 대표적인 범주에 걸쳐 967개의 비디오와 2,585개의 세심하게 주석이 달린 이미지-텍스트 쿼리로 구성되어 있습니다. 최신 오픈소스(예: InternVL2.5, Qwen2.5-VL) 및 클로즈드소스(예: GPT-4o, Gemini2-Flash 및 Gemini2-Pro) MLLM에 대한 광범위한 평가 결과, 현재 모델들은 이미지 기반 비디오 인식 및 추론에서 크게 부진하며, 최대 28.9%의 정확도만 달성하고 있음을 보여줍니다. 추가 분석을 통해 추론 패턴, 프레임 수, 해상도 등 IV-Bench에서 모델 성능에 영향을 미치는 주요 요인을 밝혀냈습니다. 또한, 간단한 데이터 합성 접근법을 통해 IV-Bench의 도전 과제가 단순히 훈련 과정에서 데이터 형식을 맞추는 것 이상임을 입증했습니다. 이러한 발견들은 미래 연구를 위한 귀중한 통찰력을 제공합니다. 우리의 코드와 데이터는 https://github.com/multimodal-art-projection/IV-Bench에서 공개되었습니다.
English
Existing evaluation frameworks for Multimodal Large Language Models (MLLMs)
primarily focus on image reasoning or general video understanding tasks,
largely overlooking the significant role of image context in video
comprehension. To bridge this gap, we propose IV-Bench, the first comprehensive
benchmark for evaluating Image-Grounded Video Perception and Reasoning.
IV-Bench consists of 967 videos paired with 2,585 meticulously annotated
image-text queries across 13 tasks (7 perception and 6 reasoning tasks) and 5
representative categories. Extensive evaluations of state-of-the-art
open-source (e.g., InternVL2.5, Qwen2.5-VL) and closed-source (e.g., GPT-4o,
Gemini2-Flash and Gemini2-Pro) MLLMs demonstrate that current models
substantially underperform in image-grounded video Perception and Reasoning,
merely achieving at most 28.9% accuracy. Further analysis reveals key factors
influencing model performance on IV-Bench, including inference pattern, frame
number, and resolution. Additionally, through a simple data synthesis approach,
we demonstratethe challenges of IV- Bench extend beyond merely aligning the
data format in the training proecss. These findings collectively provide
valuable insights for future research. Our codes and data are released in
https://github.com/multimodal-art-projection/IV-Bench.Summary
AI-Generated Summary