Tracktention : Exploiter le suivi de points pour analyser les vidéos plus rapidement et plus efficacement
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better
March 25, 2025
Auteurs: Zihang Lai, Andrea Vedaldi
cs.AI
Résumé
La cohérence temporelle est cruciale dans la prédiction vidéo pour garantir que les sorties soient cohérentes et exemptes d'artefacts. Les méthodes traditionnelles, telles que l'attention temporelle et la convolution 3D, peuvent rencontrer des difficultés face à des mouvements d'objets significatifs et ne parviennent pas toujours à capturer les dépendances temporelles à long terme dans des scènes dynamiques. Pour combler cette lacune, nous proposons la couche Tracktention, un nouveau composant architectural qui intègre explicitement les informations de mouvement en utilisant des pistes de points, c'est-à-dire des séquences de points correspondants à travers les images. En incorporant ces indices de mouvement, la couche Tracktention améliore l'alignement temporel et gère efficacement les mouvements complexes d'objets, maintenant des représentations de caractéristiques cohérentes dans le temps. Notre approche est efficace sur le plan computationnel et peut être intégrée de manière transparente dans des modèles existants, tels que les Vision Transformers, avec des modifications minimales. Elle permet de transformer des modèles conçus uniquement pour les images en modèles vidéo de pointe, surpassant parfois même les modèles conçus spécifiquement pour la prédiction vidéo. Nous démontrons cela sur des tâches de prédiction de profondeur vidéo et de colorisation vidéo, où les modèles enrichis par la couche Tracktention montrent une cohérence temporelle nettement améliorée par rapport aux modèles de référence.
English
Temporal consistency is critical in video prediction to ensure that outputs
are coherent and free of artifacts. Traditional methods, such as temporal
attention and 3D convolution, may struggle with significant object motion and
may not capture long-range temporal dependencies in dynamic scenes. To address
this gap, we propose the Tracktention Layer, a novel architectural component
that explicitly integrates motion information using point tracks, i.e.,
sequences of corresponding points across frames. By incorporating these motion
cues, the Tracktention Layer enhances temporal alignment and effectively
handles complex object motions, maintaining consistent feature representations
over time. Our approach is computationally efficient and can be seamlessly
integrated into existing models, such as Vision Transformers, with minimal
modification. It can be used to upgrade image-only models to state-of-the-art
video ones, sometimes outperforming models natively designed for video
prediction. We demonstrate this on video depth prediction and video
colorization, where models augmented with the Tracktention Layer exhibit
significantly improved temporal consistency compared to baselines.Summary
AI-Generated Summary