TWLV-I: Analyse und Erkenntnisse aus ganzheitlicher Bewertung von Video-Grundlagenmodellen
TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models
August 21, 2024
Autoren: Hyeongmin Lee, Jin-Young Kim, Kyungjune Baek, Jihwan Kim, Hyojun Go, Seongsu Ha, Seokjin Han, Jiho Jang, Raehyuk Jung, Daewoo Kim, GeunOh Kim, JongMok Kim, Jongseok Kim, Junwan Kim, Soonwoo Kwon, Jangwon Lee, Seungjoon Park, Minjoon Seo, Jay Suh, Jaehyuk Yi, Aiden Lee
cs.AI
Zusammenfassung
In dieser Arbeit diskutieren wir die Bewertung von Video-Grundlagenmodellen auf faire und robuste Weise. Im Gegensatz zu Sprach- oder Bild-Grundlagenmodellen werden viele Video-Grundlagenmodelle mit unterschiedlichen Parametern bewertet (wie z. B. Abtastrate, Anzahl der Frames, Anzahl der Vortrainingschritte usw.), was faire und robuste Vergleiche erschwert. Daher präsentieren wir einen sorgfältig gestalteten Bewertungsrahmen zur Messung zweier Kernfähigkeiten der Video-Verständnis: Erscheinungsbild und Bewegungsverständnis. Unsere Ergebnisse zeigen, dass bestehende Video-Grundlagenmodelle, ob textüberwacht wie UMT oder InternVideo2 oder selbstüberwacht wie V-JEPA, Einschränkungen in mindestens einer dieser Fähigkeiten aufweisen. Als Alternative stellen wir TWLV-I vor, ein neues Video-Grundlagenmodell, das robuste visuelle Repräsentationen für sowohl bewegungs- als auch erscheinungsbasierte Videos erstellt. Basierend auf der durchschnittlichen Top-1-Genauigkeit des linearen Sondierens auf fünf Aktionserkennungs-Benchmarks, die nur auf öffentlich zugänglichen Datensätzen vortrainiert sind, zeigt unser Modell eine Verbesserung um 4,6%p im Vergleich zu V-JEPA (ViT-L) und eine Verbesserung um 7,7%p im Vergleich zu UMT (ViT-L). Selbst im Vergleich zu wesentlich größeren Modellen zeigt unser Modell eine Verbesserung um 7,2%p im Vergleich zu DFN (ViT-H), eine Verbesserung um 2,7%p im Vergleich zu V-JEPA (ViT-H) und eine Verbesserung um 2,8%p im Vergleich zu InternVideo2 (ViT-g). Wir stellen Einbettungsvektoren vor, die von TWLV-I aus Videos mehrerer häufig verwendeter Video-Benchmarks erhalten wurden, zusammen mit Evaluierungsquellcode, der diese Einbettungen direkt nutzen kann. Der Code ist verfügbar unter "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
English
In this work, we discuss evaluating video foundation models in a fair and
robust manner. Unlike language or image foundation models, many video
foundation models are evaluated with differing parameters (such as sampling
rate, number of frames, pretraining steps, etc.), making fair and robust
comparisons challenging. Therefore, we present a carefully designed evaluation
framework for measuring two core capabilities of video comprehension:
appearance and motion understanding. Our findings reveal that existing video
foundation models, whether text-supervised like UMT or InternVideo2, or
self-supervised like V-JEPA, exhibit limitations in at least one of these
capabilities. As an alternative, we introduce TWLV-I, a new video foundation
model that constructs robust visual representations for both motion- and
appearance-based videos. Based on the average top-1 accuracy of linear probing
on five action recognition benchmarks, pretrained only on publicly accessible
datasets, our model shows a 4.6%p improvement compared to V-JEPA (ViT-L) and a
7.7%p improvement compared to UMT (ViT-L). Even when compared to much larger
models, our model demonstrates a 7.2%p improvement compared to DFN (ViT-H), a
2.7%p improvement compared to V-JEPA~(ViT-H) and a 2.8%p improvement compared
to InternVideo2 (ViT-g). We provide embedding vectors obtained by TWLV-I from
videos of several commonly used video benchmarks, along with evaluation source
code that can directly utilize these embeddings. The code is available on
"https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".Summary
AI-Generated Summary