ChatPaper.aiChatPaper

ダイナミック・リフレクションズ:テキスト整合性による映像表現の分析

Dynamic Reflections: Probing Video Representations with Text Alignment

November 4, 2025
著者: Tyler Zhu, Tengda Han, Leonidas Guibas, Viorica Pătrăucean, Maks Ovsjanikov
cs.AI

要旨

近年、異なるモダリティ間における表現のアライメントが、多様なデータタイプにわたるエンコーダーの構造的類似性や下流タスク性能に関する知見をもたらすことが示されている。画像とテキストのアライメントでは大きな進展が見られる一方で、ビデオデータの時間的性質に着目した研究はほとんど行われていない。本研究では、現代のビデオ・言語エンコーダーの能力を探るため、ビデオとテキストの表現アライメントに関する初の包括的調査を実施する。実験結果からいくつかの重要な知見が得られた。第一に、クロスモーダルアライメントは、特に最先端のビデオエンコーダーを使用する場合、テスト時に提供される視覚データ(静止画 vs 複数フレームのビデオ)とテキストデータ(単一キャプション vs コレクション)の豊富さに強く依存することを示す。この挙動を捉えるパラメトリックなテスト時スケーリング則を提案し、実測値に対して顕著な予測精度を示す。第二に、意味的アライメントと、意味的・非意味的下流タスクの性能相関を調査し、テキストエンコーダーに対する強力なアライメントが汎用的なビデオ表現・理解能力と関連する可能性を示唆する証拠を提示する。最後に、時間推論とクロスモーダルアライメントの相関を分析し、視覚言語モデルに対する挑戦的な評価基盤を提供する。総じて本研究は、時空間データに対する様々なエンコーダーの表現力を探る情報豊富なゼロショット手法として、ビデオ-テキストアライメントを初めて導入するものである。プロジェクトページはhttps://video-prh.github.io/で公開されている。
English
The alignment of representations from different modalities has recently been shown to provide insights on the structural similarities and downstream capabilities of different encoders across diverse data types. While significant progress has been made in aligning images with text, the temporal nature of video data remains largely unexplored in this context. In this work, we conduct the first comprehensive study of video-text representation alignment, probing the capabilities of modern video and language encoders. Our findings reveal several key insights. First, we demonstrate that cross-modal alignment highly depends on the richness of both visual (static images vs. multi-frame videos) and text (single caption vs. a collection) data provided at test time, especially when using state-of-the-art video encoders. We propose parametric test-time scaling laws that capture this behavior and show remarkable predictive power against empirical observations. Secondly, we investigate the correlation between semantic alignment and performance on both semantic and non-semantic downstream tasks, providing initial evidence that strong alignment against text encoders may be linked to general-purpose video representation and understanding. Finally, we correlate temporal reasoning with cross-modal alignment providing a challenging test-bed for vision and language models. Overall, our work introduces video-text alignment as an informative zero-shot way to probe the representation power of different encoders for spatio-temporal data. Project page can be found at https://video-prh.github.io/
PDF32December 1, 2025