ChatPaper.aiChatPaper

TWLV-I: Análise e Insights de Avaliação Holística em Modelos de Fundação de Vídeo

TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models

August 21, 2024
Autores: Hyeongmin Lee, Jin-Young Kim, Kyungjune Baek, Jihwan Kim, Hyojun Go, Seongsu Ha, Seokjin Han, Jiho Jang, Raehyuk Jung, Daewoo Kim, GeunOh Kim, JongMok Kim, Jongseok Kim, Junwan Kim, Soonwoo Kwon, Jangwon Lee, Seungjoon Park, Minjoon Seo, Jay Suh, Jaehyuk Yi, Aiden Lee
cs.AI

Resumo

Neste trabalho, discutimos a avaliação de modelos fundamentais de vídeo de maneira justa e robusta. Ao contrário dos modelos fundamentais de linguagem ou imagem, muitos modelos fundamentais de vídeo são avaliados com parâmetros diferentes (como taxa de amostragem, número de quadros, etapas de pré-treinamento, etc.), tornando desafiadoras as comparações justas e robustas. Portanto, apresentamos um framework de avaliação cuidadosamente projetado para medir duas capacidades principais de compreensão de vídeo: aparência e compreensão de movimento. Nossas descobertas revelam que os modelos fundamentais de vídeo existentes, sejam supervisionados por texto como UMT ou InternVideo2, ou auto-supervisionados como V-JEPA, apresentam limitações em pelo menos uma dessas capacidades. Como alternativa, introduzimos o TWLV-I, um novo modelo fundamental de vídeo que constrói representações visuais robustas para vídeos baseados em movimento e aparência. Com base na precisão média de top-1 do linear probing em cinco benchmarks de reconhecimento de ação, pré-treinados apenas em conjuntos de dados publicamente acessíveis, nosso modelo mostra uma melhoria de 4,6%p em comparação com V-JEPA (ViT-L) e uma melhoria de 7,7%p em comparação com UMT (ViT-L). Mesmo quando comparado a modelos muito maiores, nosso modelo demonstra uma melhoria de 7,2%p em comparação com DFN (ViT-H), uma melhoria de 2,7%p em comparação com V-JEPA (ViT-H) e uma melhoria de 2,8%p em comparação com InternVideo2 (ViT-g). Fornecemos vetores de incorporação obtidos pelo TWLV-I de vídeos de vários benchmarks de vídeo comumente utilizados, juntamente com o código-fonte de avaliação que pode utilizar diretamente essas incorporações. O código está disponível em "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
English
In this work, we discuss evaluating video foundation models in a fair and robust manner. Unlike language or image foundation models, many video foundation models are evaluated with differing parameters (such as sampling rate, number of frames, pretraining steps, etc.), making fair and robust comparisons challenging. Therefore, we present a carefully designed evaluation framework for measuring two core capabilities of video comprehension: appearance and motion understanding. Our findings reveal that existing video foundation models, whether text-supervised like UMT or InternVideo2, or self-supervised like V-JEPA, exhibit limitations in at least one of these capabilities. As an alternative, we introduce TWLV-I, a new video foundation model that constructs robust visual representations for both motion- and appearance-based videos. Based on the average top-1 accuracy of linear probing on five action recognition benchmarks, pretrained only on publicly accessible datasets, our model shows a 4.6%p improvement compared to V-JEPA (ViT-L) and a 7.7%p improvement compared to UMT (ViT-L). Even when compared to much larger models, our model demonstrates a 7.2%p improvement compared to DFN (ViT-H), a 2.7%p improvement compared to V-JEPA~(ViT-H) and a 2.8%p improvement compared to InternVideo2 (ViT-g). We provide embedding vectors obtained by TWLV-I from videos of several commonly used video benchmarks, along with evaluation source code that can directly utilize these embeddings. The code is available on "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".

Summary

AI-Generated Summary

PDF572November 16, 2024