Sem Tempo a Perder: Comprimendo o Tempo nos Canais para Vídeos Móveis Compreensão
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding
May 14, 2024
Autores: Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang
cs.AI
Resumo
As arquiteturas atuais para compreensão de vídeo baseiam-se principalmente em blocos convolucionais 3D ou convoluções 2D com operações adicionais para modelagem temporal. No entanto, esses métodos tratam o eixo temporal como uma dimensão separada da sequência de vídeo, o que exige grandes recursos de computação e memória, limitando assim seu uso em dispositivos móveis. Neste artigo, propomos comprimir o eixo temporal de uma sequência de vídeo na dimensão dos canais e apresentamos uma rede leve de reconhecimento de vídeo, denominada SqueezeTime, para compreensão de vídeo em dispositivos móveis. Para aprimorar a capacidade de modelagem temporal da rede proposta, projetamos um Bloco de Aprendizado Canal-Tempo (CTL) para capturar a dinâmica temporal da sequência. Este módulo possui dois ramos complementares, em que um ramo é dedicado ao aprendizado da importância temporal e outro ramo, com capacidade de restauração da posição temporal, visa aprimorar a capacidade de modelagem de objetos intertemporais. O SqueezeTime proposto é muito leve e rápido, com alta precisão para compreensão de vídeo em dispositivos móveis. Experimentos extensivos em vários benchmarks de reconhecimento de vídeo e detecção de ações, como Kinetics400, Kinetics600, HMDB51, AVA2.1 e THUMOS14, demonstram a superioridade do nosso modelo. Por exemplo, nosso SqueezeTime alcança um ganho de +1,2% em precisão e +80% em taxa de transferência de GPU no Kinetics400 em comparação com métodos anteriores. Os códigos estão publicamente disponíveis em https://github.com/xinghaochen/SqueezeTime e https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
English
Current architectures for video understanding mainly build upon 3D
convolutional blocks or 2D convolutions with additional operations for temporal
modeling. However, these methods all regard the temporal axis as a separate
dimension of the video sequence, which requires large computation and memory
budgets and thus limits their usage on mobile devices. In this paper, we
propose to squeeze the time axis of a video sequence into the channel dimension
and present a lightweight video recognition network, term as
SqueezeTime, for mobile video understanding. To enhance the temporal
modeling capability of the proposed network, we design a Channel-Time Learning
(CTL) Block to capture temporal dynamics of the sequence. This module has two
complementary branches, in which one branch is for temporal importance learning
and another branch with temporal position restoring capability is to enhance
inter-temporal object modeling ability. The proposed SqueezeTime is much
lightweight and fast with high accuracies for mobile video understanding.
Extensive experiments on various video recognition and action detection
benchmarks, i.e., Kinetics400, Kinetics600, HMDB51, AVA2.1 and THUMOS14,
demonstrate the superiority of our model. For example, our SqueezeTime achieves
+1.2% accuracy and +80% GPU throughput gain on Kinetics400 than prior
methods. Codes are publicly available at
https://github.com/xinghaochen/SqueezeTime and
https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.