ChatPaper.aiChatPaper

Video-MME: 비디오 분석에서 다중 모달 LLM을 위한 최초의 포괄적 평가 벤치마크

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

May 31, 2024
저자: Chaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun
cs.AI

초록

인공 일반 지능(AGI)을 추구하는 과정에서, 다중 모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)이 최근 주요 관심사로 부상했습니다. 그러나 현재까지의 연구는 주로 정적 이미지 이해 능력 개발에 집중되어 있으며, 순차적 시각 데이터 처리에서의 MLLMs 잠재력은 여전히 충분히 탐구되지 않았습니다. 이는 MLLMs의 성능을 종합적이고 고품질로 평가할 수 있는 체계가 부재함을 의미합니다. 본 논문에서는 비디오 분석 분야에서 MLLMs의 첫 번째 전범위 다중 모달 평가 벤치마크인 Video-MME를 소개합니다. 우리의 작업은 네 가지 주요 특징을 통해 기존 벤치마크와 차별화됩니다: 1) 6개의 주요 시각 도메인과 30개의 하위 분야를 아우르는 다양한 비디오 유형을 통해 광범위한 시나리오 일반화를 보장; 2) 11초부터 1시간까지의 단기, 중기, 장기 비디오를 포함한 시간적 차원의 다양성을 통해 견고한 맥락적 역동성 제공; 3) 비디오 프레임 외에도 자막 및 오디오와 같은 다중 모달 입력을 통합하여 MLLMs의 전방위 능력 발휘; 4) 전문가 주석가의 엄격한 수동 라벨링을 활용한 고품질 주석을 통해 정확하고 신뢰할 수 있는 모델 평가 가능. 총 256시간 분량의 900개 비디오를 반복적으로 시청하여 선별하고 주석을 달아 2,700개의 질문-답변 쌍을 생성했습니다. Video-MME를 통해 GPT-4 시리즈 및 Gemini 1.5 Pro와 같은 최신 MLLMs뿐만 아니라 InternVL-Chat-V1.5와 같은 오픈소스 이미지 모델 및 LLaVA-NeXT-Video와 같은 비디오 모델을 광범위하게 평가했습니다. 실험 결과, Gemini 1.5 Pro가 상업용 모델 중 가장 우수한 성능을 보였으며, 오픈소스 모델들을 크게 앞섰습니다. 우리의 데이터셋과 이러한 발견들은 더 긴 시퀀스와 다중 모달 데이터 처리에 대한 추가 개선의 필요성을 강조합니다. 프로젝트 페이지: https://video-mme.github.io
English
In the quest for artificial general intelligence, Multi-modal Large Language Models (MLLMs) have emerged as a focal point in recent advancements. However, the predominant focus remains on developing their capabilities in static image understanding. The potential of MLLMs in processing sequential visual data is still insufficiently explored, highlighting the absence of a comprehensive, high-quality assessment of their performance. In this paper, we introduce Video-MME, the first-ever full-spectrum, Multi-Modal Evaluation benchmark of MLLMs in Video analysis. Our work distinguishes from existing benchmarks through four key features: 1) Diversity in video types, spanning 6 primary visual domains with 30 subfields to ensure broad scenario generalizability; 2) Duration in temporal dimension, encompassing both short-, medium-, and long-term videos, ranging from 11 seconds to 1 hour, for robust contextual dynamics; 3) Breadth in data modalities, integrating multi-modal inputs besides video frames, including subtitles and audios, to unveil the all-round capabilities of MLLMs; 4) Quality in annotations, utilizing rigorous manual labeling by expert annotators to facilitate precise and reliable model assessment. 900 videos with a total of 256 hours are manually selected and annotated by repeatedly viewing all the video content, resulting in 2,700 question-answer pairs. With Video-MME, we extensively evaluate various state-of-the-art MLLMs, including GPT-4 series and Gemini 1.5 Pro, as well as open-source image models like InternVL-Chat-V1.5 and video models like LLaVA-NeXT-Video. Our experiments reveal that Gemini 1.5 Pro is the best-performing commercial model, significantly outperforming the open-source models. Our dataset along with these findings underscores the need for further improvements in handling longer sequences and multi-modal data. Project Page: https://video-mme.github.io

Summary

AI-Generated Summary

PDF252December 12, 2024