TWLV-I: 비디오 기반 모델에 대한 전체적인 평가 분석과 통찰력
TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models
August 21, 2024
저자: Hyeongmin Lee, Jin-Young Kim, Kyungjune Baek, Jihwan Kim, Hyojun Go, Seongsu Ha, Seokjin Han, Jiho Jang, Raehyuk Jung, Daewoo Kim, GeunOh Kim, JongMok Kim, Jongseok Kim, Junwan Kim, Soonwoo Kwon, Jangwon Lee, Seungjoon Park, Minjoon Seo, Jay Suh, Jaehyuk Yi, Aiden Lee
cs.AI
초록
본 연구에서는 동영상 기반 모델을 공정하고 견고하게 평가하는 방법에 대해 논의합니다. 언어나 이미지 기반 모델과는 달리 많은 동영상 기반 모델이 샘플링 속도, 프레임 수, 사전 훈련 단계 등과 같은 다양한 매개변수로 평가되어 공정하고 견고한 비교가 어려운 상황입니다. 따라서 우리는 동영상 이해의 두 가지 핵심 능력인 외관 및 움직임 이해를 측정하기 위해 신중히 설계된 평가 프레임워크를 제시합니다. 우리의 연구 결과는 기존의 동영상 기반 모델인 UMT나 InternVideo2와 같은 텍스트 지도형 모델 또는 V-JEPA와 같은 자가 지도형 모델이 이러한 능력 중 적어도 하나에 제한이 있다는 것을 보여줍니다. 대안으로, 우리는 TWLV-I라는 새로운 동영상 기반 모델을 소개합니다. 이 모델은 움직임 및 외관 기반 동영상에 대해 견고한 시각적 표현을 구축합니다. 공개 데이터셋만을 사용하여 사전 훈련된 다섯 가지 액션 인식 벤치마크에서 선형 프로빙의 평균 상위 1위 정확도를 기반으로, 우리 모델은 V-JEPA (ViT-L)에 비해 4.6%p 향상, UMT (ViT-L)에 비해 7.7%p 향상을 보입니다. 훨씬 큰 모델과 비교해도, 우리 모델은 DFN (ViT-H)에 비해 7.2%p 향상, V-JEPA (ViT-H)에 비해 2.7%p 향상, InternVideo2 (ViT-g)에 비해 2.8%p 향상을 보입니다. 우리는 TWLV-I로부터 얻은 임베딩 벡터를 몇 가지 일반적으로 사용되는 동영상 벤치마크의 동영상에서 제공하며, 이러한 임베딩을 직접 활용할 수 있는 평가 소스 코드도 함께 제공합니다. 해당 코드는 "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework"에서 이용 가능합니다.
English
In this work, we discuss evaluating video foundation models in a fair and
robust manner. Unlike language or image foundation models, many video
foundation models are evaluated with differing parameters (such as sampling
rate, number of frames, pretraining steps, etc.), making fair and robust
comparisons challenging. Therefore, we present a carefully designed evaluation
framework for measuring two core capabilities of video comprehension:
appearance and motion understanding. Our findings reveal that existing video
foundation models, whether text-supervised like UMT or InternVideo2, or
self-supervised like V-JEPA, exhibit limitations in at least one of these
capabilities. As an alternative, we introduce TWLV-I, a new video foundation
model that constructs robust visual representations for both motion- and
appearance-based videos. Based on the average top-1 accuracy of linear probing
on five action recognition benchmarks, pretrained only on publicly accessible
datasets, our model shows a 4.6%p improvement compared to V-JEPA (ViT-L) and a
7.7%p improvement compared to UMT (ViT-L). Even when compared to much larger
models, our model demonstrates a 7.2%p improvement compared to DFN (ViT-H), a
2.7%p improvement compared to V-JEPA~(ViT-H) and a 2.8%p improvement compared
to InternVideo2 (ViT-g). We provide embedding vectors obtained by TWLV-I from
videos of several commonly used video benchmarks, along with evaluation source
code that can directly utilize these embeddings. The code is available on
"https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".Summary
AI-Generated Summary