Non c'è tempo da perdere: comprimere il tempo nei canali per la comprensione dei video mobili
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding
May 14, 2024
Autori: Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang
cs.AI
Abstract
Le architetture attuali per la comprensione video si basano principalmente su blocchi convoluzionali 3D o convoluzioni 2D con operazioni aggiuntive per la modellazione temporale. Tuttavia, questi metodi considerano l'asse temporale come una dimensione separata della sequenza video, il che richiede un elevato budget computazionale e di memoria, limitando così il loro utilizzo su dispositivi mobili. In questo articolo, proponiamo di comprimere l'asse temporale di una sequenza video nella dimensione dei canali e presentiamo una rete leggera per il riconoscimento video, denominata SqueezeTime, per la comprensione video su dispositivi mobili. Per migliorare la capacità di modellazione temporale della rete proposta, abbiamo progettato un blocco di apprendimento canale-tempo (Channel-Time Learning, CTL) per catturare le dinamiche temporali della sequenza. Questo modulo ha due rami complementari, in cui un ramo è dedicato all'apprendimento dell'importanza temporale e un altro ramo, con capacità di ripristino della posizione temporale, è progettato per migliorare la capacità di modellazione degli oggetti inter-temporali. La rete SqueezeTime proposta è molto leggera e veloce, con elevate precisioni per la comprensione video su dispositivi mobili. Esperimenti estesi su vari benchmark di riconoscimento video e rilevamento di azioni, come Kinetics400, Kinetics600, HMDB51, AVA2.1 e THUMOS14, dimostrano la superiorità del nostro modello. Ad esempio, la nostra SqueezeTime raggiunge un aumento di precisione dell'1,2% e un guadagno di throughput GPU dell'80% su Kinetics400 rispetto ai metodi precedenti. I codici sono disponibili pubblicamente su https://github.com/xinghaochen/SqueezeTime e https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
English
Current architectures for video understanding mainly build upon 3D
convolutional blocks or 2D convolutions with additional operations for temporal
modeling. However, these methods all regard the temporal axis as a separate
dimension of the video sequence, which requires large computation and memory
budgets and thus limits their usage on mobile devices. In this paper, we
propose to squeeze the time axis of a video sequence into the channel dimension
and present a lightweight video recognition network, term as
SqueezeTime, for mobile video understanding. To enhance the temporal
modeling capability of the proposed network, we design a Channel-Time Learning
(CTL) Block to capture temporal dynamics of the sequence. This module has two
complementary branches, in which one branch is for temporal importance learning
and another branch with temporal position restoring capability is to enhance
inter-temporal object modeling ability. The proposed SqueezeTime is much
lightweight and fast with high accuracies for mobile video understanding.
Extensive experiments on various video recognition and action detection
benchmarks, i.e., Kinetics400, Kinetics600, HMDB51, AVA2.1 and THUMOS14,
demonstrate the superiority of our model. For example, our SqueezeTime achieves
+1.2% accuracy and +80% GPU throughput gain on Kinetics400 than prior
methods. Codes are publicly available at
https://github.com/xinghaochen/SqueezeTime and
https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.