Vript: 하나의 영상은 수천 마디 말의 가치가 있다
Vript: A Video Is Worth Thousands of Words
June 10, 2024
저자: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao
cs.AI
초록
멀티모달 학습, 특히 비디오 이해 및 생성 분야의 발전은 향상된 모델 성능을 위해 고품질의 비디오-텍스트 데이터셋을 요구합니다. Vript는 이 문제를 12K개의 고해상도 비디오로 구성된 세심하게 주석 처리된 코퍼스로 해결하며, 420K개 이상의 클립에 대해 상세하고 밀도 높으며 스크립트 같은 캡션을 제공합니다. 각 클립은 ~145단어의 캡션을 가지며, 이는 대부분의 비디오-텍스트 데이터셋보다 10배 이상 깁니다. 이전 데이터셋의 캡션이 정적인 내용만 기록한 것과 달리, 우리는 비디오 캡션을 비디오 스크립팅으로 발전시켜 내용뿐만 아니라 샷 유형(중간 샷, 클로즈업 등)과 카메라 움직임(패닝, 틸팅 등)을 포함한 카메라 작업도 기록합니다. Vript를 활용하여, 우리는 클립-캡션 쌍보다 더 많은 텍스트를 비디오 모달리티와 정렬하는 세 가지 훈련 패러다임을 탐구합니다. 이는 오픈소스 모델 중에서 GPT-4V와 성능이 비슷한 최고 수준의 비디오 캡션 모델인 Vriptor를 만들어냅니다. Vriptor는 또한 긴 비디오에 대해 밀도 높고 상세한 캡션을 종단 간 생성할 수 있는 강력한 모델입니다. 더불어, 우리는 기존 벤치마크보다 더 도전적인 세 가지 비디오 이해 작업으로 구성된 Vript-Hard 벤치마크를 소개합니다: Vript-HAL은 비디오 LLM의 행동 및 객체 환각을 평가하는 첫 번째 벤치마크이며, Vript-RR은 긴 비디오 QA에서 질문의 모호성을 해결하기 위해 추론과 검색을 결합하고, Vript-ERO는 이전 작업에서의 짧은 비디오의 행동이 아닌 긴 비디오의 이벤트에 대한 시간적 이해를 평가하는 새로운 작업입니다. 모든 코드, 모델, 데이터셋은 https://github.com/mutonix/Vript에서 이용 가능합니다.
English
Advancements in multimodal learning, particularly in video understanding and
generation, require high-quality video-text datasets for improved model
performance. Vript addresses this issue with a meticulously annotated corpus of
12K high-resolution videos, offering detailed, dense, and script-like captions
for over 420K clips. Each clip has a caption of ~145 words, which is over 10x
longer than most video-text datasets. Unlike captions only documenting static
content in previous datasets, we enhance video captioning to video scripting by
documenting not just the content, but also the camera operations, which include
the shot types (medium shot, close-up, etc) and camera movements (panning,
tilting, etc). By utilizing the Vript, we explore three training paradigms of
aligning more text with the video modality rather than clip-caption pairs. This
results in Vriptor, a top-performing video captioning model among open-source
models, comparable to GPT-4V in performance. Vriptor is also a powerful model
capable of end-to-end generation of dense and detailed captions for long
videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three
video understanding tasks that are more challenging than existing benchmarks:
Vript-HAL is the first benchmark evaluating action and object hallucinations in
video LLMs, Vript-RR combines reasoning with retrieval resolving question
ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the
temporal understanding of events in long videos rather than actions in short
videos in previous works. All code, models, and datasets are available in
https://github.com/mutonix/Vript.Summary
AI-Generated Summary