Pas de temps à perdre : Compresser le temps dans les canaux pour la vidéo mobile Compréhension
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding
May 14, 2024
Auteurs: Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang
cs.AI
Résumé
Les architectures actuelles pour la compréhension vidéo reposent principalement sur des blocs convolutifs 3D ou des convolutions 2D avec des opérations supplémentaires pour la modélisation temporelle. Cependant, ces méthodes considèrent toutes l'axe temporel comme une dimension distincte de la séquence vidéo, ce qui nécessite des budgets de calcul et de mémoire importants, limitant ainsi leur utilisation sur les appareils mobiles. Dans cet article, nous proposons de compresser l'axe temporel d'une séquence vidéo dans la dimension des canaux et présentons un réseau de reconnaissance vidéo léger, appelé SqueezeTime, pour la compréhension vidéo mobile. Pour améliorer la capacité de modélisation temporelle du réseau proposé, nous concevons un bloc d'apprentissage canal-temps (Channel-Time Learning, CTL) pour capturer la dynamique temporelle de la séquence. Ce module possède deux branches complémentaires : une branche pour l'apprentissage de l'importance temporelle et une autre avec une capacité de restauration de la position temporelle pour améliorer la modélisation des objets inter-temporels. Le SqueezeTime proposé est beaucoup plus léger et rapide, tout en offrant une grande précision pour la compréhension vidéo mobile. Des expériences approfondies sur divers benchmarks de reconnaissance vidéo et de détection d'actions, tels que Kinetics400, Kinetics600, HMDB51, AVA2.1 et THUMOS14, démontrent la supériorité de notre modèle. Par exemple, notre SqueezeTime atteint une précision de +1,2 % et un gain de débit GPU de +80 % sur Kinetics400 par rapport aux méthodes précédentes. Les codes sont disponibles publiquement à l'adresse https://github.com/xinghaochen/SqueezeTime et https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
English
Current architectures for video understanding mainly build upon 3D
convolutional blocks or 2D convolutions with additional operations for temporal
modeling. However, these methods all regard the temporal axis as a separate
dimension of the video sequence, which requires large computation and memory
budgets and thus limits their usage on mobile devices. In this paper, we
propose to squeeze the time axis of a video sequence into the channel dimension
and present a lightweight video recognition network, term as
SqueezeTime, for mobile video understanding. To enhance the temporal
modeling capability of the proposed network, we design a Channel-Time Learning
(CTL) Block to capture temporal dynamics of the sequence. This module has two
complementary branches, in which one branch is for temporal importance learning
and another branch with temporal position restoring capability is to enhance
inter-temporal object modeling ability. The proposed SqueezeTime is much
lightweight and fast with high accuracies for mobile video understanding.
Extensive experiments on various video recognition and action detection
benchmarks, i.e., Kinetics400, Kinetics600, HMDB51, AVA2.1 and THUMOS14,
demonstrate the superiority of our model. For example, our SqueezeTime achieves
+1.2% accuracy and +80% GPU throughput gain on Kinetics400 than prior
methods. Codes are publicly available at
https://github.com/xinghaochen/SqueezeTime and
https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.Summary
AI-Generated Summary