Tracktention: Aproveitando o Rastreamento de Pontos para Analisar Vídeos de Forma Mais Rápida e Eficiente
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better
March 25, 2025
Autores: Zihang Lai, Andrea Vedaldi
cs.AI
Resumo
A consistência temporal é crucial na previsão de vídeos para garantir que as saídas sejam coerentes e livres de artefatos. Métodos tradicionais, como atenção temporal e convolução 3D, podem enfrentar dificuldades com movimentos significativos de objetos e podem não capturar dependências temporais de longo alcance em cenas dinâmicas. Para abordar essa lacuna, propomos a Camada Tracktention, um componente arquitetônico inovador que integra explicitamente informações de movimento usando trilhas de pontos, ou seja, sequências de pontos correspondentes entre quadros. Ao incorporar essas pistas de movimento, a Camada Tracktention melhora o alinhamento temporal e lida efetivamente com movimentos complexos de objetos, mantendo representações de características consistentes ao longo do tempo. Nossa abordagem é computacionalmente eficiente e pode ser integrada de forma contínua em modelos existentes, como Vision Transformers, com modificações mínimas. Ela pode ser usada para atualizar modelos projetados apenas para imagens para modelos de vídeo de última geração, às vezes superando modelos projetados nativamente para previsão de vídeo. Demonstramos isso na previsão de profundidade de vídeo e na colorização de vídeo, onde modelos aprimorados com a Camada Tracktention exibem uma consistência temporal significativamente melhorada em comparação com as linhas de base.
English
Temporal consistency is critical in video prediction to ensure that outputs
are coherent and free of artifacts. Traditional methods, such as temporal
attention and 3D convolution, may struggle with significant object motion and
may not capture long-range temporal dependencies in dynamic scenes. To address
this gap, we propose the Tracktention Layer, a novel architectural component
that explicitly integrates motion information using point tracks, i.e.,
sequences of corresponding points across frames. By incorporating these motion
cues, the Tracktention Layer enhances temporal alignment and effectively
handles complex object motions, maintaining consistent feature representations
over time. Our approach is computationally efficient and can be seamlessly
integrated into existing models, such as Vision Transformers, with minimal
modification. It can be used to upgrade image-only models to state-of-the-art
video ones, sometimes outperforming models natively designed for video
prediction. We demonstrate this on video depth prediction and video
colorization, where models augmented with the Tracktention Layer exhibit
significantly improved temporal consistency compared to baselines.Summary
AI-Generated Summary