ChatPaper.aiChatPaper

Geen Tijd te Verliezen: Pers Tijd in Kanaal voor Mobiele Video Begrip

No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding

May 14, 2024
Auteurs: Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang
cs.AI

Samenvatting

Huidige architecturen voor videobegrip zijn voornamelijk gebaseerd op 3D-convolutionele blokken of 2D-convoluties met aanvullende operaties voor temporele modellering. Deze methoden behandelen echter allemaal de temporele as als een aparte dimensie van de videosequentie, wat grote reken- en geheugenbudgetten vereist en daardoor hun gebruik op mobiele apparaten beperkt. In dit artikel stellen we voor om de tijdas van een videosequentie in de kanaaldimensie te persen en presenteren we een lichtgewicht videorecognitienetwerk, genaamd SqueezeTime, voor mobiel videobegrip. Om de temporele modelleringscapaciteit van het voorgestelde netwerk te verbeteren, ontwerpen we een Channel-Time Learning (CTL)-blok om de temporele dynamiek van de sequentie vast te leggen. Deze module heeft twee complementaire takken, waarbij de ene tak bedoeld is voor het leren van temporeel belang en de andere tak, met het vermogen om temporele posities te herstellen, is bedoeld om de intertemporele objectmodelleringscapaciteit te verbeteren. Het voorgestelde SqueezeTime is veel lichter en sneller met hoge nauwkeurigheden voor mobiel videobegrip. Uitgebreide experimenten op verschillende videorecognitie- en actiedetectiebenchmarks, zoals Kinetics400, Kinetics600, HMDB51, AVA2.1 en THUMOS14, demonstreren de superioriteit van ons model. Zo behaalt onze SqueezeTime bijvoorbeeld +1,2% nauwkeurigheid en +80% GPU-doorvoerwinst op Kinetics400 in vergelijking met eerdere methoden. De codes zijn openbaar beschikbaar op https://github.com/xinghaochen/SqueezeTime en https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
English
Current architectures for video understanding mainly build upon 3D convolutional blocks or 2D convolutions with additional operations for temporal modeling. However, these methods all regard the temporal axis as a separate dimension of the video sequence, which requires large computation and memory budgets and thus limits their usage on mobile devices. In this paper, we propose to squeeze the time axis of a video sequence into the channel dimension and present a lightweight video recognition network, term as SqueezeTime, for mobile video understanding. To enhance the temporal modeling capability of the proposed network, we design a Channel-Time Learning (CTL) Block to capture temporal dynamics of the sequence. This module has two complementary branches, in which one branch is for temporal importance learning and another branch with temporal position restoring capability is to enhance inter-temporal object modeling ability. The proposed SqueezeTime is much lightweight and fast with high accuracies for mobile video understanding. Extensive experiments on various video recognition and action detection benchmarks, i.e., Kinetics400, Kinetics600, HMDB51, AVA2.1 and THUMOS14, demonstrate the superiority of our model. For example, our SqueezeTime achieves +1.2% accuracy and +80% GPU throughput gain on Kinetics400 than prior methods. Codes are publicly available at https://github.com/xinghaochen/SqueezeTime and https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
PDF150February 8, 2026