Réflexions dynamiques : exploration des représentations vidéo par alignement textuel
Dynamic Reflections: Probing Video Representations with Text Alignment
November 4, 2025
papers.authors: Tyler Zhu, Tengda Han, Leonidas Guibas, Viorica Pătrăucean, Maks Ovsjanikov
cs.AI
papers.abstract
L'alignement des représentations issues de différentes modalités a récemment démontré son utilité pour appréhender les similarités structurelles et les capacités en aval de différents encodeurs à travers divers types de données. Bien que des progrès significatifs aient été réalisés dans l'alignement d'images avec du texte, la nature temporelle des données vidéo reste largement inexplorée dans ce contexte. Dans ce travail, nous menons la première étude exhaustive de l'alignement des représentations vidéo-texte, sondant les capacités des encodeurs vidéo et linguistiques modernes. Nos résultats révèlent plusieurs observations clés. Premièrement, nous démontrons que l'alignement intermodal dépend fortement de la richesse des données visuelles (images statiques vs. vidéos multi-images) et textuelles (légende unique vs. collection) fournies au moment du test, particulièrement lors de l'utilisation d'encodeurs vidéo de pointe. Nous proposons des lois d'échelle paramétriques au moment du test qui capturent ce comportement et montrent un pouvoir prédictif remarquable face aux observations empiriques. Deuxièmement, nous étudions la corrélation entre l'alignement sémantique et les performances sur des tâches en aval sémantiques et non sémantiques, fournissant des preuves initiales qu'un fort alignement avec les encodeurs de texte pourrait être lié à une représentation vidéo et une compréhension polyvalentes. Enfin, nous corrélons le raisonnement temporel avec l'alignement intermodal, offrant ainsi un banc d'essai exigeant pour les modèles de vision et de langage. Globalement, notre travail introduit l'alignement vidéo-texte comme une méthode zero-shot informative pour sonder la puissance de représentation de différents encodeurs pour les données spatio-temporelles. La page du projet est disponible à l'adresse https://video-prh.github.io/
English
The alignment of representations from different modalities has recently been shown to provide insights on the structural similarities and downstream capabilities of different encoders across diverse data types. While significant progress has been made in aligning images with text, the temporal nature of video data remains largely unexplored in this context. In this work, we conduct the first comprehensive study of video-text representation alignment, probing the capabilities of modern video and language encoders. Our findings reveal several key insights. First, we demonstrate that cross-modal alignment highly depends on the richness of both visual (static images vs. multi-frame videos) and text (single caption vs. a collection) data provided at test time, especially when using state-of-the-art video encoders. We propose parametric test-time scaling laws that capture this behavior and show remarkable predictive power against empirical observations. Secondly, we investigate the correlation between semantic alignment and performance on both semantic and non-semantic downstream tasks, providing initial evidence that strong alignment against text encoders may be linked to general-purpose video representation and understanding. Finally, we correlate temporal reasoning with cross-modal alignment providing a challenging test-bed for vision and language models. Overall, our work introduces video-text alignment as an informative zero-shot way to probe the representation power of different encoders for spatio-temporal data. Project page can be found at https://video-prh.github.io/