ChatPaper.aiChatPaper

Tracktention: Использование отслеживания точек для более быстрого и эффективного анализа видео

Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

March 25, 2025
Авторы: Zihang Lai, Andrea Vedaldi
cs.AI

Аннотация

Временная согласованность имеет критическое значение в прогнозировании видео для обеспечения того, чтобы выходные данные были последовательными и свободными от артефактов. Традиционные методы, такие как временное внимание и 3D-свертка, могут испытывать трудности с обработкой значительного движения объектов и не всегда способны улавливать долгосрочные временные зависимости в динамических сценах. Для устранения этого пробела мы предлагаем слой Tracktention — новый архитектурный компонент, который явно интегрирует информацию о движении с использованием треков точек, то есть последовательностей соответствующих точек между кадрами. Включая эти сигналы движения, слой Tracktention улучшает временное выравнивание и эффективно справляется со сложными движениями объектов, сохраняя согласованные представления признаков во времени. Наш подход является вычислительно эффективным и может быть легко интегрирован в существующие модели, такие как Vision Transformers, с минимальными изменениями. Он позволяет модернизировать модели, предназначенные только для изображений, до современных моделей для видео, иногда превосходя модели, изначально разработанные для прогнозирования видео. Мы демонстрируем это на примере прогнозирования глубины видео и раскрашивания видео, где модели, дополненные слоем Tracktention, показывают значительно улучшенную временную согласованность по сравнению с базовыми методами.
English
Temporal consistency is critical in video prediction to ensure that outputs are coherent and free of artifacts. Traditional methods, such as temporal attention and 3D convolution, may struggle with significant object motion and may not capture long-range temporal dependencies in dynamic scenes. To address this gap, we propose the Tracktention Layer, a novel architectural component that explicitly integrates motion information using point tracks, i.e., sequences of corresponding points across frames. By incorporating these motion cues, the Tracktention Layer enhances temporal alignment and effectively handles complex object motions, maintaining consistent feature representations over time. Our approach is computationally efficient and can be seamlessly integrated into existing models, such as Vision Transformers, with minimal modification. It can be used to upgrade image-only models to state-of-the-art video ones, sometimes outperforming models natively designed for video prediction. We demonstrate this on video depth prediction and video colorization, where models augmented with the Tracktention Layer exhibit significantly improved temporal consistency compared to baselines.

Summary

AI-Generated Summary

PDF22March 28, 2025