ChatPaper.aiChatPaper

Riflessioni Dinamiche: Analisi delle Rappresentazioni Video con Allineamento Testuale

Dynamic Reflections: Probing Video Representations with Text Alignment

November 4, 2025
Autori: Tyler Zhu, Tengda Han, Leonidas Guibas, Viorica Pătrăucean, Maks Ovsjanikov
cs.AI

Abstract

L'allineamento delle rappresentazioni provenienti da diverse modalità ha recentemente dimostrato di fornire informazioni sulle similarità strutturali e sulle capacità di elaborazione a valle di diversi encoder in vari tipi di dati. Sebbene siano stati compiuti progressi significativi nell'allineamento di immagini e testo, la natura temporale dei dati video rimane in gran parte inesplorata in questo contesto. In questo lavoro, conduciamo il primo studio completo sull'allineamento delle rappresentazioni video-testo, analizzando le capacità dei moderni encoder video e linguistici. I nostri risultati rivelano diverse intuizioni chiave. In primo luogo, dimostriamo che l'allineamento cross-modale dipende fortemente dalla ricchezza dei dati visivi (immagini statiche vs. video multi-frame) e testuali (singola didascalia vs. una raccolta) forniti al momento del test, specialmente quando si utilizzano encoder video allo stato dell'arte. Proponiamo leggi di scaling parametriche al test time che catturano questo comportamento e mostrano un notevole potere predittivo rispetto alle osservazioni empiriche. In secondo luogo, investigiamo la correlazione tra allineamento semantico e prestazioni su task downstream sia semantici che non semantici, fornendo evidenze iniziali che un forte allineamento con gli encoder testuali possa essere collegato a rappresentazioni video e comprensione di carattere generale. Infine, correliamo il ragionamento temporale con l'allineamento cross-modale, fornendo un banco di prova impegnativo per i modelli di visione e linguaggio. Nel complesso, il nostro lavoro introduce l'allineamento video-testo come metodo informativo zero-shot per analizzare il potere rappresentativo di diversi encoder per dati spazio-temporali. La pagina del progetto è disponibile all'indirizzo https://video-prh.github.io/
English
The alignment of representations from different modalities has recently been shown to provide insights on the structural similarities and downstream capabilities of different encoders across diverse data types. While significant progress has been made in aligning images with text, the temporal nature of video data remains largely unexplored in this context. In this work, we conduct the first comprehensive study of video-text representation alignment, probing the capabilities of modern video and language encoders. Our findings reveal several key insights. First, we demonstrate that cross-modal alignment highly depends on the richness of both visual (static images vs. multi-frame videos) and text (single caption vs. a collection) data provided at test time, especially when using state-of-the-art video encoders. We propose parametric test-time scaling laws that capture this behavior and show remarkable predictive power against empirical observations. Secondly, we investigate the correlation between semantic alignment and performance on both semantic and non-semantic downstream tasks, providing initial evidence that strong alignment against text encoders may be linked to general-purpose video representation and understanding. Finally, we correlate temporal reasoning with cross-modal alignment providing a challenging test-bed for vision and language models. Overall, our work introduces video-text alignment as an informative zero-shot way to probe the representation power of different encoders for spatio-temporal data. Project page can be found at https://video-prh.github.io/
PDF32December 1, 2025