ChatPaper.aiChatPaper

Dynamische Reflexionen: Untersuchung von Videorepräsentationen durch Textabgleich

Dynamic Reflections: Probing Video Representations with Text Alignment

November 4, 2025
papers.authors: Tyler Zhu, Tengda Han, Leonidas Guibas, Viorica Pătrăucean, Maks Ovsjanikov
cs.AI

papers.abstract

Die Ausrichtung von Repräsentationen aus verschiedenen Modalitäten hat kürzlich Einblicke in die strukturellen Ähnlichkeiten und nachgelagerten Fähigkeiten verschiedener Encoder über diverse Datentypen hinweg geliefert. Während bedeutende Fortschritte bei der Ausrichtung von Bildern mit Text erzielt wurden, ist die zeitliche Natur von Videodaten in diesem Kontext weitgehend unerforscht. In dieser Arbeit führen wir die erste umfassende Studie zur Video-Text-Repräsentationsausrichtung durch und untersuchen die Fähigkeiten moderner Video- und Sprach-Encoder. Unsere Ergebnisse liefern mehrere zentrale Erkenntnisse. Erstens zeigen wir, dass die cross-modale Ausrichtung stark von der Reichhaltigkeit der visuellen (statische Bilder vs. Mehrbild-Videos) und textuellen (einzelne Beschriftung vs. Sammlung) Daten abhängt, die zur Testzeit bereitgestellt werden, insbesondere bei Verwendung modernster Video-Encoder. Wir schlagen parametrische Skalierungsgesetze für die Testzeit vor, die dieses Verhalten erfassen und bemerkenswerte Vorhersagekraft gegenüber empirischen Beobachtungen zeigen. Zweitens untersuchen wir die Korrelation zwischen semantischer Ausrichtung und der Leistung bei sowohl semantischen als auch nicht-semantischen Downstream-Aufgaben und liefern erste Belege dafür, dass eine starke Ausrichtung zu Text-Encodern mit allgemeingültigen Video-Repräsentationen und -Verständnis verbunden sein könnte. Schließlich korrelieren wir temporale Reasoning-Fähigkeiten mit cross-modaler Ausrichtung und schaffen so eine anspruchsvolle Testumgebung für Vision-and-Language-Modelle. Insgesamt führt unsere Arbeit Video-Text-Ausrichtung als informative Zero-Shot-Methode ein, um die Repräsentationsstärke verschiedener Encoder für räumlich-zeitliche Daten zu untersuchen. Die Projektseite ist unter https://video-prh.github.io/ zu finden.
English
The alignment of representations from different modalities has recently been shown to provide insights on the structural similarities and downstream capabilities of different encoders across diverse data types. While significant progress has been made in aligning images with text, the temporal nature of video data remains largely unexplored in this context. In this work, we conduct the first comprehensive study of video-text representation alignment, probing the capabilities of modern video and language encoders. Our findings reveal several key insights. First, we demonstrate that cross-modal alignment highly depends on the richness of both visual (static images vs. multi-frame videos) and text (single caption vs. a collection) data provided at test time, especially when using state-of-the-art video encoders. We propose parametric test-time scaling laws that capture this behavior and show remarkable predictive power against empirical observations. Secondly, we investigate the correlation between semantic alignment and performance on both semantic and non-semantic downstream tasks, providing initial evidence that strong alignment against text encoders may be linked to general-purpose video representation and understanding. Finally, we correlate temporal reasoning with cross-modal alignment providing a challenging test-bed for vision and language models. Overall, our work introduces video-text alignment as an informative zero-shot way to probe the representation power of different encoders for spatio-temporal data. Project page can be found at https://video-prh.github.io/
PDF32December 1, 2025