Reflexiones Dinámicas: Exploración de Representaciones de Video con Alineación Textual
Dynamic Reflections: Probing Video Representations with Text Alignment
November 4, 2025
Autores: Tyler Zhu, Tengda Han, Leonidas Guibas, Viorica Pătrăucean, Maks Ovsjanikov
cs.AI
Resumen
La alineación de representaciones de diferentes modalidades ha demostrado recientemente proporcionar información sobre las similitudes estructurales y las capacidades posteriores de diferentes codificadores en diversos tipos de datos. Si bien se ha logrado un progreso significativo en la alineación de imágenes con texto, la naturaleza temporal de los datos de vídeo sigue siendo en gran medida inexplorada en este contexto. En este trabajo, realizamos el primer estudio integral sobre la alineación de representaciones vídeo-texto, analizando las capacidades de los codificadores modernos de vídeo y lenguaje. Nuestros hallazgos revelan varias conclusiones clave. En primer lugar, demostramos que la alineación multimodal depende en gran medida de la riqueza de los datos tanto visuales (imágenes estáticas vs. vídeos multicuadro) como textuales (una sola leyenda vs. una colección) proporcionados en el momento de la prueba, especialmente cuando se utilizan codificadores de vídeo de última generación. Proponemos leyes de escalado paramétricas en tiempo de prueba que capturan este comportamiento y muestran un poder predictivo notable frente a observaciones empíricas. En segundo lugar, investigamos la correlación entre la alineación semántica y el rendimiento en tareas posteriores tanto semánticas como no semánticas, proporcionando evidencia inicial de que una alineación sólida con los codificadores de texto puede estar vinculada a la representación y comprensión de vídeo de propósito general. Finalmente, correlacionamos el razonamiento temporal con la alineación multimodal, proporcionando un banco de pruebas desafiante para los modelos de visión y lenguaje. En general, nuestro trabajo introduce la alineación vídeo-texto como una forma informativa de sondear, sin ajuste específico (zero-shot), el poder de representación de diferentes codificadores para datos espacio-temporales. La página del proyecto se puede encontrar en https://video-prh.github.io/
English
The alignment of representations from different modalities has recently been shown to provide insights on the structural similarities and downstream capabilities of different encoders across diverse data types. While significant progress has been made in aligning images with text, the temporal nature of video data remains largely unexplored in this context. In this work, we conduct the first comprehensive study of video-text representation alignment, probing the capabilities of modern video and language encoders. Our findings reveal several key insights. First, we demonstrate that cross-modal alignment highly depends on the richness of both visual (static images vs. multi-frame videos) and text (single caption vs. a collection) data provided at test time, especially when using state-of-the-art video encoders. We propose parametric test-time scaling laws that capture this behavior and show remarkable predictive power against empirical observations. Secondly, we investigate the correlation between semantic alignment and performance on both semantic and non-semantic downstream tasks, providing initial evidence that strong alignment against text encoders may be linked to general-purpose video representation and understanding. Finally, we correlate temporal reasoning with cross-modal alignment providing a challenging test-bed for vision and language models. Overall, our work introduces video-text alignment as an informative zero-shot way to probe the representation power of different encoders for spatio-temporal data. Project page can be found at https://video-prh.github.io/