ChatPaper.aiChatPaper

TWLV-I: Analyse en inzichten uit holistische evaluatie van videofundamentmodellen

TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models

August 21, 2024
Auteurs: Hyeongmin Lee, Jin-Young Kim, Kyungjune Baek, Jihwan Kim, Hyojun Go, Seongsu Ha, Seokjin Han, Jiho Jang, Raehyuk Jung, Daewoo Kim, GeunOh Kim, JongMok Kim, Jongseok Kim, Junwan Kim, Soonwoo Kwon, Jangwon Lee, Seungjoon Park, Minjoon Seo, Jay Suh, Jaehyuk Yi, Aiden Lee
cs.AI

Samenvatting

In dit werk bespreken we het evalueren van video foundation models op een eerlijke en robuuste manier. In tegenstelling tot taal- of beeld-foundation models, worden veel video-foundation models geëvalueerd met verschillende parameters (zoals samplefrequentie, aantal frames, aantal pretrainingsstappen, enz.), wat eerlijke en robuuste vergelijkingen bemoeilijkt. Daarom presenteren we een zorgvuldig ontworpen evaluatieraamwerk voor het meten van twee kernvaardigheden van videobegrip: het begrijpen van uiterlijk en beweging. Onze bevindingen tonen aan dat bestaande video-foundation models, of ze nu tekstgesuperviseerd zijn zoals UMT of InternVideo2, of zelfgesuperviseerd zoals V-JEPA, beperkingen vertonen in ten minste één van deze vaardigheden. Als alternatief introduceren we TWLV-I, een nieuw video-foundation model dat robuuste visuele representaties construeert voor zowel op beweging als uiterlijk gebaseerde video's. Op basis van de gemiddelde top-1 nauwkeurigheid van lineaire probing op vijf actieherkenningsbenchmarks, enkel gepretraind op publiek toegankelijke datasets, toont ons model een verbetering van 4,6%p ten opzichte van V-JEPA (ViT-L) en een verbetering van 7,7%p ten opzichte van UMT (ViT-L). Zelfs in vergelijking met veel grotere modellen, demonstreert ons model een verbetering van 7,2%p ten opzichte van DFN (ViT-H), een verbetering van 2,7%p ten opzichte van V-JEPA (ViT-H) en een verbetering van 2,8%p ten opzichte van InternVideo2 (ViT-g). We bieden embeddingvectoren verkregen door TWLV-I van video's van verschillende veelgebruikte videobenchmarks, samen met evaluatiebroncode die deze embeddings direct kan gebruiken. De code is beschikbaar op "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
English
In this work, we discuss evaluating video foundation models in a fair and robust manner. Unlike language or image foundation models, many video foundation models are evaluated with differing parameters (such as sampling rate, number of frames, pretraining steps, etc.), making fair and robust comparisons challenging. Therefore, we present a carefully designed evaluation framework for measuring two core capabilities of video comprehension: appearance and motion understanding. Our findings reveal that existing video foundation models, whether text-supervised like UMT or InternVideo2, or self-supervised like V-JEPA, exhibit limitations in at least one of these capabilities. As an alternative, we introduce TWLV-I, a new video foundation model that constructs robust visual representations for both motion- and appearance-based videos. Based on the average top-1 accuracy of linear probing on five action recognition benchmarks, pretrained only on publicly accessible datasets, our model shows a 4.6%p improvement compared to V-JEPA (ViT-L) and a 7.7%p improvement compared to UMT (ViT-L). Even when compared to much larger models, our model demonstrates a 7.2%p improvement compared to DFN (ViT-H), a 2.7%p improvement compared to V-JEPA~(ViT-H) and a 2.8%p improvement compared to InternVideo2 (ViT-g). We provide embedding vectors obtained by TWLV-I from videos of several commonly used video benchmarks, along with evaluation source code that can directly utilize these embeddings. The code is available on "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".

Summary

AI-Generated Summary

PDF572November 16, 2024