Dynamische Reflecties: Het Onderzoeken van Videorepresentaties met Tekstuitlijning
Dynamic Reflections: Probing Video Representations with Text Alignment
November 4, 2025
Auteurs: Tyler Zhu, Tengda Han, Leonidas Guibas, Viorica Pătrăucean, Maks Ovsjanikov
cs.AI
Samenvatting
De uitlijning van representaties uit verschillende modaliteiten is recentelijk aangetoond inzichten te bieden in de structurele overeenkomsten en downstream-mogelijkheden van verschillende encoders voor diverse datatypen. Hoewel aanzienlijke vooruitgang is geboekt bij het uitlijnen van afbeeldingen met tekst, blijft de temporele aard van videogegevens in deze context grotendeels onontgonnen. In dit werk voeren we de eerste uitgebreide studie uit naar video-tekst representatie-uitlijning, waarbij we de capaciteiten van moderne video- en taalencoders onderzoeken. Onze bevindingen onthullen enkele cruciale inzichten. Ten eerste tonen we aan dat cross-modale uitlijning sterk afhangt van de rijkdom van zowel visuele (statische afbeeldingen versus multi-frame video's) als tekstuele (enkel bijschrift versus een collectie) gegevens die tijdens de test worden verstrekt, vooral bij gebruik van state-of-the-art video-encoders. We stellen parametrische schaalwetten voor testtijd voor die dit gedrag vangen en opmerkelijke voorspellende kracht tonen ten opzichte van empirische observaties. Ten tweede onderzoeken we de correlatie tussen semantische uitlijning en prestaties op zowel semantische als niet-semantische downstream-taken, waarbij we eerste bewijs leveren dat sterke uitlijning met tekstencoders verband kan houden met algemene video-representatie en -begrip. Tot slot correleren we temporeel redeneren met cross-modale uitlijning, wat een uitdagende testomgeving biedt voor visie- en taalmodelen. Al met al introduceert ons werk video-tekst-uitlijning als een informatieve zero-shot manier om de representatiekracht van verschillende encoders voor spatio-temporele gegevens te onderzoeken. De projectpagina is te vinden op https://video-prh.github.io/
English
The alignment of representations from different modalities has recently been shown to provide insights on the structural similarities and downstream capabilities of different encoders across diverse data types. While significant progress has been made in aligning images with text, the temporal nature of video data remains largely unexplored in this context. In this work, we conduct the first comprehensive study of video-text representation alignment, probing the capabilities of modern video and language encoders. Our findings reveal several key insights. First, we demonstrate that cross-modal alignment highly depends on the richness of both visual (static images vs. multi-frame videos) and text (single caption vs. a collection) data provided at test time, especially when using state-of-the-art video encoders. We propose parametric test-time scaling laws that capture this behavior and show remarkable predictive power against empirical observations. Secondly, we investigate the correlation between semantic alignment and performance on both semantic and non-semantic downstream tasks, providing initial evidence that strong alignment against text encoders may be linked to general-purpose video representation and understanding. Finally, we correlate temporal reasoning with cross-modal alignment providing a challenging test-bed for vision and language models. Overall, our work introduces video-text alignment as an informative zero-shot way to probe the representation power of different encoders for spatio-temporal data. Project page can be found at https://video-prh.github.io/