TWLV-I: Analyse und Erkenntnisse aus ganzheitlicher Bewertung von Video-Grundlagenmodellen

papers.abstract

In dieser Arbeit diskutieren wir die Bewertung von Video-Grundlagenmodellen auf faire und robuste Weise. Im Gegensatz zu Sprach- oder Bild-Grundlagenmodellen werden viele Video-Grundlagenmodelle mit unterschiedlichen Parametern bewertet (wie z. B. Abtastrate, Anzahl der Frames, Anzahl der Vortrainingschritte usw.), was faire und robuste Vergleiche erschwert. Daher präsentieren wir einen sorgfältig gestalteten Bewertungsrahmen zur Messung zweier Kernfähigkeiten der Video-Verständnis: Erscheinungsbild und Bewegungsverständnis. Unsere Ergebnisse zeigen, dass bestehende Video-Grundlagenmodelle, ob textüberwacht wie UMT oder InternVideo2 oder selbstüberwacht wie V-JEPA, Einschränkungen in mindestens einer dieser Fähigkeiten aufweisen. Als Alternative stellen wir TWLV-I vor, ein neues Video-Grundlagenmodell, das robuste visuelle Repräsentationen für sowohl bewegungs- als auch erscheinungsbasierte Videos erstellt. Basierend auf der durchschnittlichen Top-1-Genauigkeit des linearen Sondierens auf fünf Aktionserkennungs-Benchmarks, die nur auf öffentlich zugänglichen Datensätzen vortrainiert sind, zeigt unser Modell eine Verbesserung um 4,6%p im Vergleich zu V-JEPA (ViT-L) und eine Verbesserung um 7,7%p im Vergleich zu UMT (ViT-L). Selbst im Vergleich zu wesentlich größeren Modellen zeigt unser Modell eine Verbesserung um 7,2%p im Vergleich zu DFN (ViT-H), eine Verbesserung um 2,7%p im Vergleich zu V-JEPA (ViT-H) und eine Verbesserung um 2,8%p im Vergleich zu InternVideo2 (ViT-g). Wir stellen Einbettungsvektoren vor, die von TWLV-I aus Videos mehrerer häufig verwendeter Video-Benchmarks erhalten wurden, zusammen mit Evaluierungsquellcode, der diese Einbettungen direkt nutzen kann. Der Code ist verfügbar unter "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".

English

In this work, we discuss evaluating video foundation models in a fair and robust manner. Unlike language or image foundation models, many video foundation models are evaluated with differing parameters (such as sampling rate, number of frames, pretraining steps, etc.), making fair and robust comparisons challenging. Therefore, we present a carefully designed evaluation framework for measuring two core capabilities of video comprehension: appearance and motion understanding. Our findings reveal that existing video foundation models, whether text-supervised like UMT or InternVideo2, or self-supervised like V-JEPA, exhibit limitations in at least one of these capabilities. As an alternative, we introduce TWLV-I, a new video foundation model that constructs robust visual representations for both motion- and appearance-based videos. Based on the average top-1 accuracy of linear probing on five action recognition benchmarks, pretrained only on publicly accessible datasets, our model shows a 4.6%p improvement compared to V-JEPA (ViT-L) and a 7.7%p improvement compared to UMT (ViT-L). Even when compared to much larger models, our model demonstrates a 7.2%p improvement compared to DFN (ViT-H), a 2.7%p improvement compared to V-JEPA~(ViT-H) and a 2.8%p improvement compared to InternVideo2 (ViT-g). We provide embedding vectors obtained by TWLV-I from videos of several commonly used video benchmarks, along with evaluation source code that can directly utilize these embeddings. The code is available on "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".

TWLV-I: Analyse und Erkenntnisse aus ganzheitlicher Bewertung von Video-Grundlagenmodellen

TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models

papers.abstract

Support