Tracktention: 포인트 트래킹을 활용하여 더 빠르고 더 나은 비디오 주목 수행
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better
March 25, 2025
저자: Zihang Lai, Andrea Vedaldi
cs.AI
초록
시간적 일관성은 비디오 예측에서 출력물이 일관되고 아티팩트가 없도록 보장하기 위해 매우 중요합니다. 시간적 주의 메커니즘(temporal attention)이나 3D 컨볼루션과 같은 전통적인 방법들은 큰 물체 움직임을 다루는 데 어려움을 겪거나 동적인 장면에서 장기간의 시간적 의존성을 포착하지 못할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 포인트 트랙(point tracks), 즉 프레임 간의 대응점 시퀀스를 사용하여 명시적으로 움직임 정보를 통합하는 새로운 아키텍처 구성 요소인 Tracktention Layer를 제안합니다. 이러한 움직임 단서를 통합함으로써, Tracktention Layer는 시간적 정렬을 강화하고 복잡한 물체 움직임을 효과적으로 처리하며, 시간에 걸쳐 일관된 특징 표현을 유지합니다. 우리의 접근 방식은 계산적으로 효율적이며, Vision Transformer와 같은 기존 모델에 최소한의 수정만으로 원활하게 통합될 수 있습니다. 이를 통해 이미지 전용 모델을 최신 비디오 모델로 업그레이드할 수 있으며, 경우에 따라 비디오 예측을 위해 원래 설계된 모델을 능가하기도 합니다. 우리는 비디오 깊이 예측과 비디오 컬러화 작업에서 이를 입증했는데, Tracktention Layer가 추가된 모델들이 베이스라인 대비 시간적 일관성이 크게 개선된 성능을 보였습니다.
English
Temporal consistency is critical in video prediction to ensure that outputs
are coherent and free of artifacts. Traditional methods, such as temporal
attention and 3D convolution, may struggle with significant object motion and
may not capture long-range temporal dependencies in dynamic scenes. To address
this gap, we propose the Tracktention Layer, a novel architectural component
that explicitly integrates motion information using point tracks, i.e.,
sequences of corresponding points across frames. By incorporating these motion
cues, the Tracktention Layer enhances temporal alignment and effectively
handles complex object motions, maintaining consistent feature representations
over time. Our approach is computationally efficient and can be seamlessly
integrated into existing models, such as Vision Transformers, with minimal
modification. It can be used to upgrade image-only models to state-of-the-art
video ones, sometimes outperforming models natively designed for video
prediction. We demonstrate this on video depth prediction and video
colorization, where models augmented with the Tracktention Layer exhibit
significantly improved temporal consistency compared to baselines.Summary
AI-Generated Summary