Reflexões Dinâmicas: Investigando Representações de Vídeo com Alinhamento Textual

Resumo

O alinhamento de representações de diferentes modalidades tem demonstrado recentemente fornecer insights sobre as similaridades estruturais e capacidades subsequentes de diferentes codificadores em diversos tipos de dados. Embora progressos significativos tenham sido alcançados no alinhamento de imagens com texto, a natureza temporal dos dados de vídeo permanece amplamente inexplorada neste contexto. Neste trabalho, realizamos o primeiro estudo abrangente sobre o alinhamento de representações vídeo-texto, investigando as capacidades de codificadores modernos de vídeo e linguagem. Nossas descobertas revelam vários insights-chave. Primeiro, demonstramos que o alinhamento cross-modal depende fortemente da riqueza dos dados visuais (imagens estáticas vs. vídeos com múltiplos quadros) e textuais (legenda única vs. uma coleção) fornecidos no momento do teste, especialmente ao utilizar codificadores de vídeo state-of-the-art. Propomos leis de escala paramétricas no momento do teste que capturam este comportamento e mostram um poder preditivo notável contra observações empíricas. Em segundo lugar, investigamos a correlação entre o alinhamento semântico e o desempenho em tarefas subsequentes semânticas e não semânticas, fornecendo evidências iniciais de que um forte alinhamento com codificadores de texto pode estar ligado a uma representação e compreensão de vídeo de propósito geral. Finalmente, correlacionamos o raciocínio temporal com o alinhamento cross-modal, fornecendo um campo de testes desafiador para modelos de visão e linguagem. No geral, nosso trabalho introduz o alinhamento vídeo-texto como uma forma informativa de *zero-shot* para investigar o poder de representação de diferentes codificadores para dados espaço-temporais. A página do projeto pode ser encontrada em https://video-prh.github.io/

English

The alignment of representations from different modalities has recently been shown to provide insights on the structural similarities and downstream capabilities of different encoders across diverse data types. While significant progress has been made in aligning images with text, the temporal nature of video data remains largely unexplored in this context. In this work, we conduct the first comprehensive study of video-text representation alignment, probing the capabilities of modern video and language encoders. Our findings reveal several key insights. First, we demonstrate that cross-modal alignment highly depends on the richness of both visual (static images vs. multi-frame videos) and text (single caption vs. a collection) data provided at test time, especially when using state-of-the-art video encoders. We propose parametric test-time scaling laws that capture this behavior and show remarkable predictive power against empirical observations. Secondly, we investigate the correlation between semantic alignment and performance on both semantic and non-semantic downstream tasks, providing initial evidence that strong alignment against text encoders may be linked to general-purpose video representation and understanding. Finally, we correlate temporal reasoning with cross-modal alignment providing a challenging test-bed for vision and language models. Overall, our work introduces video-text alignment as an informative zero-shot way to probe the representation power of different encoders for spatio-temporal data. Project page can be found at https://video-prh.github.io/

Reflexões Dinâmicas: Investigando Representações de Vídeo com Alinhamento Textual

Dynamic Reflections: Probing Video Representations with Text Alignment

Resumo

Support