ChatPaper.aiChatPaper

TRecViT: Ein wiederkehrender Video-Transformer

TRecViT: A Recurrent Video Transformer

December 18, 2024
Autoren: Viorica Pătrăucean, Xu Owen He, Joseph Heyward, Chuhan Zhang, Mehdi S. M. Sajjadi, George-Cristian Muraru, Artem Zholus, Mahdi Karami, Ross Goroshin, Yutian Chen, Simon Osindero, João Carreira, Razvan Pascanu
cs.AI

Zusammenfassung

Wir schlagen einen neuartigen Block für die Modellierung von Videos vor. Er basiert auf einer Zeit-Raum-Kanal-Faktorisierung mit dedizierten Blöcken für jede Dimension: Gated Linear Recurrent Units (LRUs) führen Informationsmischungen über die Zeit durch, Self-Attention-Schichten führen Mischungen über den Raum durch und MLPs über die Kanäle. Die resultierende Architektur TRecViT erzielt gute Leistungen bei spärlichen und dichten Aufgaben, die in überwachten oder selbstüberwachten Regimen trainiert werden. Bemerkenswert ist, dass unser Modell kausal ist und ein reines Aufmerksamkeitsmodell ViViT-L auf großen Videodatensätzen (SSv2, Kinetics400) übertrifft oder gleichauf liegt, während es 3-mal weniger Parameter, 12-mal weniger Speicherplatz und 5-mal weniger FLOPs aufweist. Der Code und die Checkpoints werden online unter https://github.com/google-deepmind/trecvit verfügbar gemacht.
English
We propose a novel block for video modelling. It relies on a time-space-channel factorisation with dedicated blocks for each dimension: gated linear recurrent units (LRUs) perform information mixing over time, self-attention layers perform mixing over space, and MLPs over channels. The resulting architecture TRecViT performs well on sparse and dense tasks, trained in supervised or self-supervised regimes. Notably, our model is causal and outperforms or is on par with a pure attention model ViViT-L on large scale video datasets (SSv2, Kinetics400), while having 3times less parameters, 12times smaller memory footprint, and 5times lower FLOPs count. Code and checkpoints will be made available online at https://github.com/google-deepmind/trecvit.

Summary

AI-Generated Summary

PDF134December 23, 2024