ChatPaper.aiChatPaper

TRecViT: Een Recurrente Video Transformer

TRecViT: A Recurrent Video Transformer

December 18, 2024
Auteurs: Viorica Pătrăucean, Xu Owen He, Joseph Heyward, Chuhan Zhang, Mehdi S. M. Sajjadi, George-Cristian Muraru, Artem Zholus, Mahdi Karami, Ross Goroshin, Yutian Chen, Simon Osindero, João Carreira, Razvan Pascanu
cs.AI

Samenvatting

We introduceren een nieuw blok voor videomodellering. Het maakt gebruik van een tijd-ruimte-kanaalfactorisatie met toegewijde blokken voor elke dimensie: afsluitbare lineaire recurrente eenheden (LRU's) voeren informatie-mixing uit in de tijd, zelfaandachtlagen voeren mixing uit in de ruimte, en MLP's over kanalen. De resulterende architectuur TRecViT presteert goed op schaarse en dichte taken, getraind in begeleide of zelf-begeleide regimes. Opmerkelijk is dat ons model causaal is en beter presteert dan of vergelijkbaar is met een puur aandachtsmodel ViViT-L op grootschalige videodatasets (SSv2, Kinetics400), terwijl het 3 keer minder parameters heeft, 12 keer kleinere geheugenfootprint en 5 keer lager FLOPs-telling. De code en checkpoints zullen online beschikbaar worden gesteld op https://github.com/google-deepmind/trecvit.
English
We propose a novel block for video modelling. It relies on a time-space-channel factorisation with dedicated blocks for each dimension: gated linear recurrent units (LRUs) perform information mixing over time, self-attention layers perform mixing over space, and MLPs over channels. The resulting architecture TRecViT performs well on sparse and dense tasks, trained in supervised or self-supervised regimes. Notably, our model is causal and outperforms or is on par with a pure attention model ViViT-L on large scale video datasets (SSv2, Kinetics400), while having 3times less parameters, 12times smaller memory footprint, and 5times lower FLOPs count. Code and checkpoints will be made available online at https://github.com/google-deepmind/trecvit.
PDF134December 23, 2024