Gedächtniskonsolidierung ermöglicht das Verständnis von Videos mit langem Kontext.
Memory Consolidation Enables Long-Context Video Understanding
February 8, 2024
Autoren: Ivana Balažević, Yuge Shi, Pinelopi Papalampidi, Rahma Chaabouni, Skanda Koppula, Olivier J. Hénaff
cs.AI
Zusammenfassung
Die meisten transformerbasierten Video-Encoder sind aufgrund ihrer quadratischen Komplexität auf kurze zeitliche Kontexte beschränkt. Obwohl verschiedene Versuche unternommen wurden, diesen Kontext zu erweitern, ging dies oft mit einem Anstieg sowohl der konzeptionellen als auch der rechnerischen Komplexität einher. Wir schlagen stattdessen vor, bestehende vortrainierte Video-Transformer umzuwidmen, indem sie einfach feinabgestimmt werden, um Erinnerungen zu berücksichtigen, die nicht-parametrisch aus vergangenen Aktivierungen abgeleitet werden. Durch die Nutzung von Redundanzreduktion erweitert unser speicherkonsolidierter Vision-Transformer (MC-ViT) mühelos seinen Kontext weit in die Vergangenheit und zeigt ein hervorragendes Skalierungsverhalten beim Lernen aus längeren Videos. Dadurch setzt MC-ViT einen neuen Maßstab für das Verständnis von langen Video-Kontexten auf EgoSchema, Perception Test und Diving48 und übertrifft Methoden, die von einer um Größenordnungen höheren Anzahl an Parametern profitieren.
English
Most transformer-based video encoders are limited to short temporal contexts
due to their quadratic complexity. While various attempts have been made to
extend this context, this has often come at the cost of both conceptual and
computational complexity. We propose to instead re-purpose existing pre-trained
video transformers by simply fine-tuning them to attend to memories derived
non-parametrically from past activations. By leveraging redundancy reduction,
our memory-consolidated vision transformer (MC-ViT) effortlessly extends its
context far into the past and exhibits excellent scaling behavior when learning
from longer videos. In doing so, MC-ViT sets a new state-of-the-art in
long-context video understanding on EgoSchema, Perception Test, and Diving48,
outperforming methods that benefit from orders of magnitude more parameters.