Нет времени терять: сжать время в канал для мобильного видео Понимание

Аннотация

Существующие архитектуры для понимания видео в основном основаны на трехмерных сверточных блоках или двумерных свертках с дополнительными операциями для моделирования времени. Однако все эти методы рассматривают временную ось как отдельное измерение последовательности видео, что требует больших вычислительных и памятных ресурсов, и, таким образом, ограничивает их использование на мобильных устройствах. В данной статье мы предлагаем сжать временную ось последовательности видео в канальное измерение и представляем легковесную сеть для распознавания видео, названную SqueezeTime, для понимания видео на мобильных устройствах. Для улучшения возможностей моделирования времени предложенной сети мы разрабатываем блок обучения канал-время (CTL) для захвата временной динамики последовательности. Этот модуль имеет две взаимодополняющие ветви, в одной из которых происходит обучение временной важности, а другая ветвь с возможностью восстановления временной позиции направлена на улучшение способности моделирования объектов между временными интервалами. Предложенный метод SqueezeTime является более легковесным и быстрым с высокой точностью для понимания видео на мобильных устройствах. Обширные эксперименты на различных наборах данных по распознаванию видео и обнаружению действий, таких как Kinetics400, Kinetics600, HMDB51, AVA2.1 и THUMOS14, демонстрируют превосходство нашей модели. Например, наш метод SqueezeTime достигает +1.2% точности и +80% прироста производительности GPU на наборе данных Kinetics400 по сравнению с предыдущими методами. Коды доступны по следующим ссылкам: https://github.com/xinghaochen/SqueezeTime и https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.

English

Current architectures for video understanding mainly build upon 3D convolutional blocks or 2D convolutions with additional operations for temporal modeling. However, these methods all regard the temporal axis as a separate dimension of the video sequence, which requires large computation and memory budgets and thus limits their usage on mobile devices. In this paper, we propose to squeeze the time axis of a video sequence into the channel dimension and present a lightweight video recognition network, term as SqueezeTime, for mobile video understanding. To enhance the temporal modeling capability of the proposed network, we design a Channel-Time Learning (CTL) Block to capture temporal dynamics of the sequence. This module has two complementary branches, in which one branch is for temporal importance learning and another branch with temporal position restoring capability is to enhance inter-temporal object modeling ability. The proposed SqueezeTime is much lightweight and fast with high accuracies for mobile video understanding. Extensive experiments on various video recognition and action detection benchmarks, i.e., Kinetics400, Kinetics600, HMDB51, AVA2.1 and THUMOS14, demonstrate the superiority of our model. For example, our SqueezeTime achieves +1.2% accuracy and +80% GPU throughput gain on Kinetics400 than prior methods. Codes are publicly available at https://github.com/xinghaochen/SqueezeTime and https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.

Нет времени терять: сжать время в канал для мобильного видео Понимание

No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding

Аннотация

Support