LongVideoBench: 장기간 인터리브 비디오-언어 이해를 위한 벤치마크
LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding
July 22, 2024
저자: Haoning Wu, Dongxu Li, Bei Chen, Junnan Li
cs.AI
초록
대규모 멀티모달 모델(LMMs)은 점점 더 길고 풍부한 입력을 처리하고 있습니다. 이러한 발전에도 불구하고, 이를 측정할 수 있는 공개 벤치마크는 거의 없는 실정입니다. 이러한 격차를 해소하기 위해, 우리는 최대 1시간 길이의 비디오-언어 인터리브 입력을 특징으로 하는 질의응답 벤치마크인 LongVideoBench을 소개합니다. 우리의 벤치마크는 다양한 주제에 걸친 3,763개의 다양한 길이의 웹 수집 비디오와 그 자막을 포함하며, 장기적인 멀티모달 이해에 대한 LMMs의 종합적인 평가를 위해 설계되었습니다. 이를 위해, 우리는 주요 도전 과제를 긴 입력에서 상세한 멀티모달 정보를 정확하게 검색하고 추론하는 것으로 해석합니다. 이에 따라, 우리는 참조 추론이라고 명명된 새로운 비디오 질의응답 과제를 공식화합니다. 구체적으로, 질문의 일부로 관련 비디오 컨텍스트를 참조하는 참조 쿼리가 포함되며, 이를 참조 컨텍스트라고 합니다. 모델은 이 참조 컨텍스트에서 관련 비디오 세부 사항을 추론해야 합니다. 참조 추론 패러다임을 따라, 우리는 17개의 세분화된 카테고리로 구성된 6,678개의 인간 주석 다중 선택 질문을 선별하여, 장편 비디오 이해를 위한 가장 포괄적인 벤치마크 중 하나를 확립했습니다. 평가 결과, LongVideoBench은 가장 진보된 독점 모델(예: GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo)에게도 상당한 도전을 제시하는 반면, 오픈소스 모델들은 더 큰 성능 격차를 보였습니다. 또한, 우리의 결과는 모델이 더 많은 프레임을 처리할 수 있을 때만 벤치마크에서의 성능이 향상됨을 나타내며, 이는 LongVideoBench을 차세대 장문맥 LMMs 평가를 위한 가치 있는 벤치마크로 위치시킵니다.
English
Large multimodal models (LMMs) are processing increasingly longer and richer
inputs. Albeit the progress, few public benchmark is available to measure such
development. To mitigate this gap, we introduce LongVideoBench, a
question-answering benchmark that features video-language interleaved inputs up
to an hour long. Our benchmark includes 3,763 varying-length web-collected
videos with their subtitles across diverse themes, designed to comprehensively
evaluate LMMs on long-term multimodal understanding. To achieve this, we
interpret the primary challenge as to accurately retrieve and reason over
detailed multimodal information from long inputs. As such, we formulate a novel
video question-answering task termed referring reasoning. Specifically, as part
of the question, it contains a referring query that references related video
contexts, called referred context. The model is then required to reason over
relevant video details from the referred context. Following the paradigm of
referring reasoning, we curate 6,678 human-annotated multiple-choice questions
in 17 fine-grained categories, establishing one of the most comprehensive
benchmarks for long-form video understanding. Evaluations suggest that the
LongVideoBench presents significant challenges even for the most advanced
proprietary models (e.g. GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), while their
open-source counterparts show an even larger performance gap. In addition, our
results indicate that model performance on the benchmark improves only when
they are capable of processing more frames, positioning LongVideoBench as a
valuable benchmark for evaluating future-generation long-context LMMs.Summary
AI-Generated Summary