TWLV-I: Análisis e ideas a partir de la evaluación holística en modelos fundamentales de video.
TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models
August 21, 2024
Autores: Hyeongmin Lee, Jin-Young Kim, Kyungjune Baek, Jihwan Kim, Hyojun Go, Seongsu Ha, Seokjin Han, Jiho Jang, Raehyuk Jung, Daewoo Kim, GeunOh Kim, JongMok Kim, Jongseok Kim, Junwan Kim, Soonwoo Kwon, Jangwon Lee, Seungjoon Park, Minjoon Seo, Jay Suh, Jaehyuk Yi, Aiden Lee
cs.AI
Resumen
En este trabajo, discutimos la evaluación de modelos fundamentales de video de manera justa y robusta. A diferencia de los modelos fundamentales de lenguaje o imagen, muchos modelos fundamentales de video se evalúan con parámetros diferentes (como la tasa de muestreo, el número de fotogramas, pasos de preentrenamiento, etc.), lo que dificulta las comparaciones justas y robustas. Por lo tanto, presentamos un marco de evaluación cuidadosamente diseñado para medir dos capacidades fundamentales de comprensión de video: apariencia y comprensión del movimiento. Nuestros hallazgos revelan que los modelos fundamentales de video existentes, ya sea supervisados por texto como UMT o InternVideo2, o auto-supervisados como V-JEPA, presentan limitaciones en al menos una de estas capacidades. Como alternativa, presentamos TWLV-I, un nuevo modelo fundamental de video que construye representaciones visuales robustas tanto para videos basados en movimiento como en apariencia. Basándonos en la precisión promedio de las mejores 1 predicciones en cinco bancos de pruebas de reconocimiento de acciones, preentrenado solo en conjuntos de datos de acceso público, nuestro modelo muestra una mejora del 4.6%p en comparación con V-JEPA (ViT-L) y una mejora del 7.7%p en comparación con UMT (ViT-L). Incluso en comparación con modelos mucho más grandes, nuestro modelo demuestra una mejora del 7.2%p en comparación con DFN (ViT-H), una mejora del 2.7%p en comparación con V-JEPA (ViT-H) y una mejora del 2.8%p en comparación con InternVideo2 (ViT-g). Proporcionamos vectores de incrustación obtenidos por TWLV-I de videos de varios bancos de pruebas de video comúnmente utilizados, junto con el código fuente de evaluación que puede utilizar directamente estas incrustaciones. El código está disponible en "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
English
In this work, we discuss evaluating video foundation models in a fair and
robust manner. Unlike language or image foundation models, many video
foundation models are evaluated with differing parameters (such as sampling
rate, number of frames, pretraining steps, etc.), making fair and robust
comparisons challenging. Therefore, we present a carefully designed evaluation
framework for measuring two core capabilities of video comprehension:
appearance and motion understanding. Our findings reveal that existing video
foundation models, whether text-supervised like UMT or InternVideo2, or
self-supervised like V-JEPA, exhibit limitations in at least one of these
capabilities. As an alternative, we introduce TWLV-I, a new video foundation
model that constructs robust visual representations for both motion- and
appearance-based videos. Based on the average top-1 accuracy of linear probing
on five action recognition benchmarks, pretrained only on publicly accessible
datasets, our model shows a 4.6%p improvement compared to V-JEPA (ViT-L) and a
7.7%p improvement compared to UMT (ViT-L). Even when compared to much larger
models, our model demonstrates a 7.2%p improvement compared to DFN (ViT-H), a
2.7%p improvement compared to V-JEPA~(ViT-H) and a 2.8%p improvement compared
to InternVideo2 (ViT-g). We provide embedding vectors obtained by TWLV-I from
videos of several commonly used video benchmarks, along with evaluation source
code that can directly utilize these embeddings. The code is available on
"https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".Summary
AI-Generated Summary