No hay tiempo que perder: Comprimir el tiempo en el canal para video móvil Comprensión
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding
May 14, 2024
Autores: Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang
cs.AI
Resumen
Las arquitecturas actuales para la comprensión de videos se basan principalmente en bloques convolucionales 3D o convoluciones 2D con operaciones adicionales para el modelado temporal. Sin embargo, estos métodos tratan el eje temporal como una dimensión separada de la secuencia de video, lo que requiere grandes recursos de computación y memoria, limitando así su uso en dispositivos móviles. En este artículo, proponemos comprimir el eje temporal de una secuencia de video en la dimensión de canales y presentamos una red de reconocimiento de video ligera, denominada SqueezeTime, para la comprensión de videos en dispositivos móviles. Para mejorar la capacidad de modelado temporal de la red propuesta, diseñamos un Bloque de Aprendizaje Canal-Tiempo (CTL) para capturar la dinámica temporal de la secuencia. Este módulo tiene dos ramas complementarias: una para el aprendizaje de la importancia temporal y otra con capacidad de restauración de posición temporal para mejorar la capacidad de modelado de objetos inter-temporales. La propuesta SqueezeTime es mucho más ligera y rápida, con altas precisiones para la comprensión de videos en dispositivos móviles. Experimentos extensivos en varios benchmarks de reconocimiento de video y detección de acciones, como Kinetics400, Kinetics600, HMDB51, AVA2.1 y THUMOS14, demuestran la superioridad de nuestro modelo. Por ejemplo, nuestro SqueezeTime logra un +1.2% de precisión y un +80% de rendimiento en GPU en Kinetics400 en comparación con métodos anteriores. Los códigos están disponibles públicamente en https://github.com/xinghaochen/SqueezeTime y https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
English
Current architectures for video understanding mainly build upon 3D
convolutional blocks or 2D convolutions with additional operations for temporal
modeling. However, these methods all regard the temporal axis as a separate
dimension of the video sequence, which requires large computation and memory
budgets and thus limits their usage on mobile devices. In this paper, we
propose to squeeze the time axis of a video sequence into the channel dimension
and present a lightweight video recognition network, term as
SqueezeTime, for mobile video understanding. To enhance the temporal
modeling capability of the proposed network, we design a Channel-Time Learning
(CTL) Block to capture temporal dynamics of the sequence. This module has two
complementary branches, in which one branch is for temporal importance learning
and another branch with temporal position restoring capability is to enhance
inter-temporal object modeling ability. The proposed SqueezeTime is much
lightweight and fast with high accuracies for mobile video understanding.
Extensive experiments on various video recognition and action detection
benchmarks, i.e., Kinetics400, Kinetics600, HMDB51, AVA2.1 and THUMOS14,
demonstrate the superiority of our model. For example, our SqueezeTime achieves
+1.2% accuracy and +80% GPU throughput gain on Kinetics400 than prior
methods. Codes are publicly available at
https://github.com/xinghaochen/SqueezeTime and
https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.Summary
AI-Generated Summary