ChatPaper.aiChatPaper

TWLV-I : Analyse et Insights issus d'une Évaluation Holistique sur les Modèles Fondamentaux de Vidéo

TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models

August 21, 2024
Auteurs: Hyeongmin Lee, Jin-Young Kim, Kyungjune Baek, Jihwan Kim, Hyojun Go, Seongsu Ha, Seokjin Han, Jiho Jang, Raehyuk Jung, Daewoo Kim, GeunOh Kim, JongMok Kim, Jongseok Kim, Junwan Kim, Soonwoo Kwon, Jangwon Lee, Seungjoon Park, Minjoon Seo, Jay Suh, Jaehyuk Yi, Aiden Lee
cs.AI

Résumé

Dans ce travail, nous discutons de l'évaluation des modèles fondamentaux de vidéos de manière équitable et robuste. Contrairement aux modèles fondamentaux de langage ou d'images, de nombreux modèles fondamentaux de vidéos sont évalués avec des paramètres différents (comme le taux d'échantillonnage, le nombre d'images, les étapes de pré-entraînement, etc.), ce qui rend les comparaisons équitables et robustes difficiles. Par conséquent, nous présentons un cadre d'évaluation soigneusement conçu pour mesurer deux capacités essentielles de la compréhension des vidéos : l'apparence et la compréhension du mouvement. Nos résultats révèlent que les modèles fondamentaux de vidéos existants, qu'ils soient supervisés par texte comme UMT ou InternVideo2, ou auto-supervisés comme V-JEPA, présentent des limitations dans au moins l'une de ces capacités. En alternative, nous introduisons TWLV-I, un nouveau modèle fondamental de vidéos qui construit des représentations visuelles robustes pour les vidéos basées à la fois sur le mouvement et l'apparence. Basé sur la précision moyenne du top-1 de la sonde linéaire sur cinq bancs d'essai de reconnaissance d'actions, pré-entraîné uniquement sur des ensembles de données accessibles au public, notre modèle montre une amélioration de 4,6 % par rapport à V-JEPA (ViT-L) et une amélioration de 7,7 % par rapport à UMT (ViT-L). Même en comparaison avec des modèles beaucoup plus grands, notre modèle démontre une amélioration de 7,2 % par rapport à DFN (ViT-H), une amélioration de 2,7 % par rapport à V-JEPA (ViT-H) et une amélioration de 2,8 % par rapport à InternVideo2 (ViT-g). Nous fournissons des vecteurs d'incorporation obtenus par TWLV-I à partir de vidéos de plusieurs bancs d'essai de vidéos couramment utilisés, ainsi que le code source d'évaluation qui peut utiliser directement ces incorporations. Le code est disponible sur "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
English
In this work, we discuss evaluating video foundation models in a fair and robust manner. Unlike language or image foundation models, many video foundation models are evaluated with differing parameters (such as sampling rate, number of frames, pretraining steps, etc.), making fair and robust comparisons challenging. Therefore, we present a carefully designed evaluation framework for measuring two core capabilities of video comprehension: appearance and motion understanding. Our findings reveal that existing video foundation models, whether text-supervised like UMT or InternVideo2, or self-supervised like V-JEPA, exhibit limitations in at least one of these capabilities. As an alternative, we introduce TWLV-I, a new video foundation model that constructs robust visual representations for both motion- and appearance-based videos. Based on the average top-1 accuracy of linear probing on five action recognition benchmarks, pretrained only on publicly accessible datasets, our model shows a 4.6%p improvement compared to V-JEPA (ViT-L) and a 7.7%p improvement compared to UMT (ViT-L). Even when compared to much larger models, our model demonstrates a 7.2%p improvement compared to DFN (ViT-H), a 2.7%p improvement compared to V-JEPA~(ViT-H) and a 2.8%p improvement compared to InternVideo2 (ViT-g). We provide embedding vectors obtained by TWLV-I from videos of several commonly used video benchmarks, along with evaluation source code that can directly utilize these embeddings. The code is available on "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".

Summary

AI-Generated Summary

PDF572November 16, 2024