Goldfish: 임의 길이 비디오에 대한 시각-언어 이해
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos
July 17, 2024
저자: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny
cs.AI
초록
현재 대부분의 LLM 기반 비디오 이해 모델은 몇 분 내에 비디오를 처리할 수 있습니다. 그러나 이러한 모델들은 "노이즈와 중복성" 및 "메모리와 계산" 제약과 같은 문제로 인해 긴 비디오를 다루는 데 어려움을 겪습니다. 본 논문에서는 임의 길이의 비디오를 이해하기 위해 특별히 설계된 Goldfish 방법론을 소개합니다. 또한, 비전과 텍스트 콘텐츠 모두에 대한 질문을 통해 긴 비디오 이해 능력을 평가하기 위해 특별히 설계된 TVQA-long 벤치마크를 제안합니다. Goldfish는 이러한 문제를 해결하기 위해 효율적인 검색 메커니즘을 사용하여, 먼저 명령과 관련된 상위 k개의 비디오 클립을 수집한 후 원하는 응답을 제공합니다. 이 검색 메커니즘 설계는 Goldfish가 영화나 TV 시리즈와 같은 맥락에서 임의의 길이의 비디오 시퀀스를 효율적으로 처리할 수 있도록 합니다. 검색 과정을 용이하게 하기 위해, 우리는 비디오 클립에 대한 상세한 설명을 생성하는 MiniGPT4-Video를 개발했습니다. 긴 비디오 평가를 위한 벤치마크의 부족 문제를 해결하기 위해, 우리는 TVQA 단편 비디오 벤치마크를 확장하여 전체 에피소드의 질문을 집계함으로써 평가를 부분적 이해에서 전체 에피소드 이해로 전환했습니다. 우리는 TVQA-long 벤치마크에서 41.78%의 정확도를 달성하여 기존 방법보다 14.94% 향상된 성능을 보였습니다. 또한, MiniGPT4-Video는 단편 비디오 이해에서도 탁월한 성능을 보여, MSVD, MSRVTT, TGIF, TVQA 단편 비디오 벤치마크에서 각각 3.23%, 2.03%, 16.5%, 23.59%의 성능 향상을 기록했습니다. 이러한 결과는 우리의 모델이 긴 비디오와 단편 비디오 이해 모두에서 상당한 개선을 이루었음을 나타냅니다. 우리의 모델과 코드는 https://vision-cair.github.io/Goldfish_website/에서 공개되었습니다.
English
Most current LLM-based models for video understanding can process videos
within minutes. However, they struggle with lengthy videos due to challenges
such as "noise and redundancy", as well as "memory and computation"
constraints. In this paper, we present Goldfish, a methodology tailored for
comprehending videos of arbitrary lengths. We also introduce the TVQA-long
benchmark, specifically designed to evaluate models' capabilities in
understanding long videos with questions in both vision and text content.
Goldfish approaches these challenges with an efficient retrieval mechanism that
initially gathers the top-k video clips relevant to the instruction before
proceeding to provide the desired response. This design of the retrieval
mechanism enables the Goldfish to efficiently process arbitrarily long video
sequences, facilitating its application in contexts such as movies or
television series. To facilitate the retrieval process, we developed
MiniGPT4-Video that generates detailed descriptions for the video clips. In
addressing the scarcity of benchmarks for long video evaluation, we adapted the
TVQA short video benchmark for extended content analysis by aggregating
questions from entire episodes, thereby shifting the evaluation from partial to
full episode comprehension. We attained a 41.78% accuracy rate on the TVQA-long
benchmark, surpassing previous methods by 14.94%. Our MiniGPT4-Video also shows
exceptional performance in short video comprehension, exceeding existing
state-of-the-art methods by 3.23%, 2.03%, 16.5% and 23.59% on the MSVD, MSRVTT,
TGIF, and TVQA short video benchmarks, respectively. These results indicate
that our models have significant improvements in both long and short-video
understanding. Our models and code have been made publicly available at
https://vision-cair.github.io/Goldfish_website/Summary
AI-Generated Summary