Динамические отражения: исследование видеопредставлений через текстовое согласование
Dynamic Reflections: Probing Video Representations with Text Alignment
November 4, 2025
Авторы: Tyler Zhu, Tengda Han, Leonidas Guibas, Viorica Pătrăucean, Maks Ovsjanikov
cs.AI
Аннотация
Совсем недавно было показано, что выравнивание репрезентаций из различных модальностей позволяет получить представление о структурном сходстве и последующих возможностях различных энкодеров для разнородных типов данных. Несмотря на значительный прогресс в согласовании изображений с текстом, временная природа видеоданных в этом контексте остается в основном неисследованной. В данной работе мы проводим первое комплексное исследование выравнивания видео-текстовых репрезентаций, исследуя возможности современных видео- и языковых энкодеров. Наши результаты выявляют несколько ключевых инсайтов. Во-первых, мы демонстрируем, что кросс-модальное выравнивание сильно зависит от насыщенности как визуальных (статические изображения против многокадровых видео), так и текстовых (одиночные подписи против коллекции) данных, предоставляемых во время тестирования, особенно при использовании передовых видеоэнкодеров. Мы предлагаем параметрические законы масштабирования на этапе тестирования, которые описывают это поведение и демонстрируют замечательную предсказательную силу по сравнению с эмпирическими наблюдениями. Во-вторых, мы исследуем корреляцию между семантическим выравниванием и производительностью как на семантических, так и на не-семантических downstream-задачах, предоставляя первоначальные свидетельства того, что сильное выравнивание с текстовыми энкодерами может быть связано с универсальными видео-репрезентациями и пониманием. Наконец, мы коррелируем временные рассуждения с кросс-модальным выравниванием, предоставляя сложный тестовый полигон для моделей зрения и языка. В целом, наша работа представляет видео-текстовое выравнивание как информативный zero-shot способ исследования репрезентативной силы различных энкодеров для пространственно-временных данных. Страница проекта доступна по адресу https://video-prh.github.io/
English
The alignment of representations from different modalities has recently been shown to provide insights on the structural similarities and downstream capabilities of different encoders across diverse data types. While significant progress has been made in aligning images with text, the temporal nature of video data remains largely unexplored in this context. In this work, we conduct the first comprehensive study of video-text representation alignment, probing the capabilities of modern video and language encoders. Our findings reveal several key insights. First, we demonstrate that cross-modal alignment highly depends on the richness of both visual (static images vs. multi-frame videos) and text (single caption vs. a collection) data provided at test time, especially when using state-of-the-art video encoders. We propose parametric test-time scaling laws that capture this behavior and show remarkable predictive power against empirical observations. Secondly, we investigate the correlation between semantic alignment and performance on both semantic and non-semantic downstream tasks, providing initial evidence that strong alignment against text encoders may be linked to general-purpose video representation and understanding. Finally, we correlate temporal reasoning with cross-modal alignment providing a challenging test-bed for vision and language models. Overall, our work introduces video-text alignment as an informative zero-shot way to probe the representation power of different encoders for spatio-temporal data. Project page can be found at https://video-prh.github.io/