동적 반영: 텍스트 정렬을 통한 비디오 표현 탐구
Dynamic Reflections: Probing Video Representations with Text Alignment
November 4, 2025
저자: Tyler Zhu, Tengda Han, Leonidas Guibas, Viorica Pătrăucean, Maks Ovsjanikov
cs.AI
초록
최근 다양한 모달리티 간 표현 정렬이 다양한 데이터 유형에 걸쳐 서로 다른 인코더의 구조적 유사성과 다운스트림 성능에 대한 통찰력을 제공하는 것으로 입증되었습니다. 이미지와 텍스트 정렬에서는 상당한 진전이 있었으나, 비디오 데이터의 시간적 특성은 이 맥락에서 거의 탐구되지 않았습니다. 본 연구에서는 현대적인 비디오 및 언어 인코더의 성능을 탐구하는 최초의 포괄적인 비디오-텍스트 표현 정렬 연구를 수행합니다. 우리의 연구 결과는 몇 가지 핵심 통찰을 제시합니다. 첫째, 크로스모달 정렬은 특히 최첨단 비디오 인코더를 사용할 때 테스트 시 제공되는 시각적(정적 이미지 대 다중 프레임 비디오) 및 텍스트 데이터(단일 캡션 대 컬렉션)의 풍부함에 크게 의존함을 입증합니다. 우리는 이러한 현상을 포착하는 파라메트릭 테스트 시간 스케일링 법칙을 제안하며, 경험적 관찰 대비 뛰어난 예측 능력을 보여줍니다. 둘째, 의미론적 정렬과 의미론적 및 비의미론적 다운스트림 과제 성능 간의 상관관계를 조사하여, 텍스트 인코더에 대한 강력한 정렬이 범용 비디오 표현 및 이해 능력과 연관될 수 있음을 보여주는 초기 증거를 제시합니다. 마지막으로, 시간적 추론과 크로스모달 정렬의 상관관계를 분석하여 시각 및 언어 모델을 위한 도전적인 테스트베드를 제공합니다. 전반적으로 우리 연구는 시공간 데이터에 대한 서로 다른 인코더의 표현력을 탐색하는 유익한 제로샷 방식으로 비디오-텍스트 정렬을 소개합니다. 프로젝트 페이지는 https://video-prh.github.io/에서 확인할 수 있습니다.
English
The alignment of representations from different modalities has recently been shown to provide insights on the structural similarities and downstream capabilities of different encoders across diverse data types. While significant progress has been made in aligning images with text, the temporal nature of video data remains largely unexplored in this context. In this work, we conduct the first comprehensive study of video-text representation alignment, probing the capabilities of modern video and language encoders. Our findings reveal several key insights. First, we demonstrate that cross-modal alignment highly depends on the richness of both visual (static images vs. multi-frame videos) and text (single caption vs. a collection) data provided at test time, especially when using state-of-the-art video encoders. We propose parametric test-time scaling laws that capture this behavior and show remarkable predictive power against empirical observations. Secondly, we investigate the correlation between semantic alignment and performance on both semantic and non-semantic downstream tasks, providing initial evidence that strong alignment against text encoders may be linked to general-purpose video representation and understanding. Finally, we correlate temporal reasoning with cross-modal alignment providing a challenging test-bed for vision and language models. Overall, our work introduces video-text alignment as an informative zero-shot way to probe the representation power of different encoders for spatio-temporal data. Project page can be found at https://video-prh.github.io/