ChatPaper.aiChatPaper

TRecViT: Рекуррентный Видео Трансформер

TRecViT: A Recurrent Video Transformer

December 18, 2024
Авторы: Viorica Pătrăucean, Xu Owen He, Joseph Heyward, Chuhan Zhang, Mehdi S. M. Sajjadi, George-Cristian Muraru, Artem Zholus, Mahdi Karami, Ross Goroshin, Yutian Chen, Simon Osindero, João Carreira, Razvan Pascanu
cs.AI

Аннотация

Мы предлагаем новый блок для моделирования видео. Он основан на факторизации времени-пространства-канала с выделенными блоками для каждого измерения: воротные линейные рекуррентные блоки (LRU) выполняют смешивание информации по времени, слои самовнимания выполняют смешивание по пространству, а многослойные перцептроны - по каналам. Результирующая архитектура TRecViT хорошо справляется с разреженными и плотными задачами, обученными в надзорных или автономных режимах. Заметно, что наша модель является причинной и превосходит или находится на уровне чистой модели внимания ViViT-L на крупномасштабных видеоданных (SSv2, Kinetics400), при этом имея в 3 раза меньше параметров, в 12 раз меньший объем памяти и в 5 раз меньшее количество операций с плавающей запятой. Код и контрольные точки будут доступны онлайн по адресу https://github.com/google-deepmind/trecvit.
English
We propose a novel block for video modelling. It relies on a time-space-channel factorisation with dedicated blocks for each dimension: gated linear recurrent units (LRUs) perform information mixing over time, self-attention layers perform mixing over space, and MLPs over channels. The resulting architecture TRecViT performs well on sparse and dense tasks, trained in supervised or self-supervised regimes. Notably, our model is causal and outperforms or is on par with a pure attention model ViViT-L on large scale video datasets (SSv2, Kinetics400), while having 3times less parameters, 12times smaller memory footprint, and 5times lower FLOPs count. Code and checkpoints will be made available online at https://github.com/google-deepmind/trecvit.

Summary

AI-Generated Summary

PDF134December 23, 2024