Keine Zeit zu verlieren: Zeit in Kanal für mobile Videos komprimieren
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding
May 14, 2024
Autoren: Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang
cs.AI
Zusammenfassung
Aktuelle Architekturen für die Videoverarbeitung basieren hauptsächlich auf 3D-Faltungsblöcken oder 2D-Faltungen mit zusätzlichen Operationen für die zeitliche Modellierung. Diese Methoden betrachten jedoch alle die zeitliche Achse als separate Dimension der Videosequenz, was einen hohen Rechenaufwand und Speicherbedarf erfordert und somit ihre Verwendung auf mobilen Geräten einschränkt. In diesem Artikel schlagen wir vor, die Zeitachse einer Videosequenz in die Kanaldimension zu komprimieren und ein leichtgewichtiges Videoerkennungsnetzwerk namens SqueezeTime für die mobile Videoverarbeitung vorzustellen. Um die zeitliche Modellierungsfähigkeit des vorgeschlagenen Netzwerks zu verbessern, entwerfen wir einen Kanal-Zeit-Lernblock (CTL-Block), um die zeitlichen Dynamiken der Sequenz zu erfassen. Dieses Modul verfügt über zwei ergänzende Zweige, wobei ein Zweig für das Lernen der zeitlichen Bedeutung und ein anderer Zweig mit der Fähigkeit zur Wiederherstellung der zeitlichen Position zur Verbesserung der zwischenzeitlichen Objektmodellierungsfähigkeit dient. Das vorgeschlagene SqueezeTime ist wesentlich leichter und schneller mit hoher Genauigkeit für die mobile Videoverarbeitung. Um die Überlegenheit unseres Modells zu zeigen, wurden umfangreiche Experimente an verschiedenen Benchmarks für die Videoklassifizierung und Aktionsdetektion, wie Kinetics400, Kinetics600, HMDB51, AVA2.1 und THUMOS14, durchgeführt. Beispielsweise erzielt unser SqueezeTime eine Genauigkeitssteigerung von +1,2% und eine GPU-Durchsatzsteigerung von +80% bei Kinetics400 im Vergleich zu früheren Methoden. Der Quellcode ist öffentlich verfügbar unter https://github.com/xinghaochen/SqueezeTime und https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
English
Current architectures for video understanding mainly build upon 3D
convolutional blocks or 2D convolutions with additional operations for temporal
modeling. However, these methods all regard the temporal axis as a separate
dimension of the video sequence, which requires large computation and memory
budgets and thus limits their usage on mobile devices. In this paper, we
propose to squeeze the time axis of a video sequence into the channel dimension
and present a lightweight video recognition network, term as
SqueezeTime, for mobile video understanding. To enhance the temporal
modeling capability of the proposed network, we design a Channel-Time Learning
(CTL) Block to capture temporal dynamics of the sequence. This module has two
complementary branches, in which one branch is for temporal importance learning
and another branch with temporal position restoring capability is to enhance
inter-temporal object modeling ability. The proposed SqueezeTime is much
lightweight and fast with high accuracies for mobile video understanding.
Extensive experiments on various video recognition and action detection
benchmarks, i.e., Kinetics400, Kinetics600, HMDB51, AVA2.1 and THUMOS14,
demonstrate the superiority of our model. For example, our SqueezeTime achieves
+1.2% accuracy and +80% GPU throughput gain on Kinetics400 than prior
methods. Codes are publicly available at
https://github.com/xinghaochen/SqueezeTime and
https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.Summary
AI-Generated Summary