TWLV-I: Analisi e approfondimenti dalla valutazione olistica dei modelli di base per video
TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models
August 21, 2024
Autori: Hyeongmin Lee, Jin-Young Kim, Kyungjune Baek, Jihwan Kim, Hyojun Go, Seongsu Ha, Seokjin Han, Jiho Jang, Raehyuk Jung, Daewoo Kim, GeunOh Kim, JongMok Kim, Jongseok Kim, Junwan Kim, Soonwoo Kwon, Jangwon Lee, Seungjoon Park, Minjoon Seo, Jay Suh, Jaehyuk Yi, Aiden Lee
cs.AI
Abstract
In questo lavoro, discutiamo la valutazione dei modelli di base per video in modo equo e robusto. A differenza dei modelli di base per il linguaggio o le immagini, molti modelli di base per video vengono valutati con parametri diversi (come la frequenza di campionamento, il numero di frame, i passi di pre-addestramento, ecc.), rendendo difficile effettuare confronti equi e robusti. Pertanto, presentiamo un framework di valutazione accuratamente progettato per misurare due capacità fondamentali della comprensione video: la comprensione dell'aspetto e del movimento. I nostri risultati rivelano che i modelli di base per video esistenti, siano essi supervisionati da testo come UMT o InternVideo2, o auto-supervisionati come V-JEPA, presentano limitazioni in almeno una di queste capacità. Come alternativa, introduciamo TWLV-I, un nuovo modello di base per video che costruisce rappresentazioni visive robuste sia per video basati sul movimento che sull'aspetto. Basandoci sull'accuratezza top-1 media del linear probing su cinque benchmark di riconoscimento di azioni, pre-addestrato solo su dataset pubblicamente accessibili, il nostro modello mostra un miglioramento del 4,6% rispetto a V-JEPA (ViT-L) e un miglioramento del 7,7% rispetto a UMT (ViT-L). Anche rispetto a modelli molto più grandi, il nostro modello dimostra un miglioramento del 7,2% rispetto a DFN (ViT-H), un miglioramento del 2,7% rispetto a V-JEPA (ViT-H) e un miglioramento del 2,8% rispetto a InternVideo2 (ViT-g). Forniamo i vettori di embedding ottenuti da TWLV-I da video di diversi benchmark video comunemente utilizzati, insieme al codice sorgente di valutazione che può utilizzare direttamente questi embedding. Il codice è disponibile su "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
English
In this work, we discuss evaluating video foundation models in a fair and
robust manner. Unlike language or image foundation models, many video
foundation models are evaluated with differing parameters (such as sampling
rate, number of frames, pretraining steps, etc.), making fair and robust
comparisons challenging. Therefore, we present a carefully designed evaluation
framework for measuring two core capabilities of video comprehension:
appearance and motion understanding. Our findings reveal that existing video
foundation models, whether text-supervised like UMT or InternVideo2, or
self-supervised like V-JEPA, exhibit limitations in at least one of these
capabilities. As an alternative, we introduce TWLV-I, a new video foundation
model that constructs robust visual representations for both motion- and
appearance-based videos. Based on the average top-1 accuracy of linear probing
on five action recognition benchmarks, pretrained only on publicly accessible
datasets, our model shows a 4.6%p improvement compared to V-JEPA (ViT-L) and a
7.7%p improvement compared to UMT (ViT-L). Even when compared to much larger
models, our model demonstrates a 7.2%p improvement compared to DFN (ViT-H), a
2.7%p improvement compared to V-JEPA~(ViT-H) and a 2.8%p improvement compared
to InternVideo2 (ViT-g). We provide embedding vectors obtained by TWLV-I from
videos of several commonly used video benchmarks, along with evaluation source
code that can directly utilize these embeddings. The code is available on
"https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".