TWLV-I: Análisis e ideas a partir de la evaluación holística en modelos fundamentales de video.

Resumen

En este trabajo, discutimos la evaluación de modelos fundamentales de video de manera justa y robusta. A diferencia de los modelos fundamentales de lenguaje o imagen, muchos modelos fundamentales de video se evalúan con parámetros diferentes (como la tasa de muestreo, el número de fotogramas, pasos de preentrenamiento, etc.), lo que dificulta las comparaciones justas y robustas. Por lo tanto, presentamos un marco de evaluación cuidadosamente diseñado para medir dos capacidades fundamentales de comprensión de video: apariencia y comprensión del movimiento. Nuestros hallazgos revelan que los modelos fundamentales de video existentes, ya sea supervisados por texto como UMT o InternVideo2, o auto-supervisados como V-JEPA, presentan limitaciones en al menos una de estas capacidades. Como alternativa, presentamos TWLV-I, un nuevo modelo fundamental de video que construye representaciones visuales robustas tanto para videos basados en movimiento como en apariencia. Basándonos en la precisión promedio de las mejores 1 predicciones en cinco bancos de pruebas de reconocimiento de acciones, preentrenado solo en conjuntos de datos de acceso público, nuestro modelo muestra una mejora del 4.6%p en comparación con V-JEPA (ViT-L) y una mejora del 7.7%p en comparación con UMT (ViT-L). Incluso en comparación con modelos mucho más grandes, nuestro modelo demuestra una mejora del 7.2%p en comparación con DFN (ViT-H), una mejora del 2.7%p en comparación con V-JEPA (ViT-H) y una mejora del 2.8%p en comparación con InternVideo2 (ViT-g). Proporcionamos vectores de incrustación obtenidos por TWLV-I de videos de varios bancos de pruebas de video comúnmente utilizados, junto con el código fuente de evaluación que puede utilizar directamente estas incrustaciones. El código está disponible en "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".

English

In this work, we discuss evaluating video foundation models in a fair and robust manner. Unlike language or image foundation models, many video foundation models are evaluated with differing parameters (such as sampling rate, number of frames, pretraining steps, etc.), making fair and robust comparisons challenging. Therefore, we present a carefully designed evaluation framework for measuring two core capabilities of video comprehension: appearance and motion understanding. Our findings reveal that existing video foundation models, whether text-supervised like UMT or InternVideo2, or self-supervised like V-JEPA, exhibit limitations in at least one of these capabilities. As an alternative, we introduce TWLV-I, a new video foundation model that constructs robust visual representations for both motion- and appearance-based videos. Based on the average top-1 accuracy of linear probing on five action recognition benchmarks, pretrained only on publicly accessible datasets, our model shows a 4.6%p improvement compared to V-JEPA (ViT-L) and a 7.7%p improvement compared to UMT (ViT-L). Even when compared to much larger models, our model demonstrates a 7.2%p improvement compared to DFN (ViT-H), a 2.7%p improvement compared to V-JEPA~(ViT-H) and a 2.8%p improvement compared to InternVideo2 (ViT-g). We provide embedding vectors obtained by TWLV-I from videos of several commonly used video benchmarks, along with evaluation source code that can directly utilize these embeddings. The code is available on "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".

TWLV-I: Análisis e ideas a partir de la evaluación holística en modelos fundamentales de video.

TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models

Resumen

Support