時間を無駄にしない:モバイル動画のためのチャネルへの時間圧縮理解
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding
May 14, 2024
著者: Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang
cs.AI
要旨
現在のビデオ理解のためのアーキテクチャは、主に3D畳み込みブロックや時間モデリングのための追加操作を伴う2D畳み込みに基づいて構築されています。しかし、これらの手法はすべて時間軸をビデオシーケンスの別次元として扱っており、そのため大規模な計算とメモリ予算を必要とし、モバイルデバイスでの使用が制限されています。本論文では、ビデオシーケンスの時間軸をチャネル次元に圧縮し、モバイルビデオ理解のための軽量なビデオ認識ネットワークであるSqueezeTimeを提案します。提案ネットワークの時間モデリング能力を強化するために、シーケンスの時間的ダイナミクスを捉えるためのChannel-Time Learning (CTL) ブロックを設計しました。このモジュールは2つの補完的なブランチを持ち、一方のブランチは時間的重要性の学習を、もう一方のブランチは時間的位置復元能力を備えており、時間間のオブジェクトモデリング能力を強化します。提案するSqueezeTimeは非常に軽量で高速であり、モバイルビデオ理解において高い精度を達成します。Kinetics400、Kinetics600、HMDB51、AVA2.1、THUMOS14などの様々なビデオ認識および行動検出ベンチマークでの広範な実験により、我々のモデルの優位性が実証されています。例えば、SqueezeTimeはKinetics400において、従来の手法よりも+1.2%の精度向上と+80%のGPUスループット向上を達成しました。コードはhttps://github.com/xinghaochen/SqueezeTimeおよびhttps://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTimeで公開されています。
English
Current architectures for video understanding mainly build upon 3D
convolutional blocks or 2D convolutions with additional operations for temporal
modeling. However, these methods all regard the temporal axis as a separate
dimension of the video sequence, which requires large computation and memory
budgets and thus limits their usage on mobile devices. In this paper, we
propose to squeeze the time axis of a video sequence into the channel dimension
and present a lightweight video recognition network, term as
SqueezeTime, for mobile video understanding. To enhance the temporal
modeling capability of the proposed network, we design a Channel-Time Learning
(CTL) Block to capture temporal dynamics of the sequence. This module has two
complementary branches, in which one branch is for temporal importance learning
and another branch with temporal position restoring capability is to enhance
inter-temporal object modeling ability. The proposed SqueezeTime is much
lightweight and fast with high accuracies for mobile video understanding.
Extensive experiments on various video recognition and action detection
benchmarks, i.e., Kinetics400, Kinetics600, HMDB51, AVA2.1 and THUMOS14,
demonstrate the superiority of our model. For example, our SqueezeTime achieves
+1.2% accuracy and +80% GPU throughput gain on Kinetics400 than prior
methods. Codes are publicly available at
https://github.com/xinghaochen/SqueezeTime and
https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.Summary
AI-Generated Summary