Консолидация памяти обеспечивает понимание видео с длинным контекстом
Memory Consolidation Enables Long-Context Video Understanding
February 8, 2024
Авторы: Ivana Balažević, Yuge Shi, Pinelopi Papalampidi, Rahma Chaabouni, Skanda Koppula, Olivier J. Hénaff
cs.AI
Аннотация
Большинство трансформерных видеокодировщиков ограничены короткими временными контекстами из-за их квадратичной сложности. Хотя предпринимались различные попытки расширить этот контекст, это часто достигалось за счет увеличения как концептуальной, так и вычислительной сложности. Мы предлагаем альтернативный подход: перепрофилировать уже предобученные видеотрансформеры, просто дообучая их для внимания к памяти, полученной непараметрически из прошлых активаций. Используя принцип сокращения избыточности, наш трансформер с консолидированной памятью (MC-ViT) легко расширяет свой контекст далеко в прошлое и демонстрирует отличную масштабируемость при обучении на длинных видео. В результате MC-ViT устанавливает новый эталон в понимании длинных видеоконтекстов на наборах данных EgoSchema, Perception Test и Diving48, превосходя методы, которые используют на порядки больше параметров.
English
Most transformer-based video encoders are limited to short temporal contexts
due to their quadratic complexity. While various attempts have been made to
extend this context, this has often come at the cost of both conceptual and
computational complexity. We propose to instead re-purpose existing pre-trained
video transformers by simply fine-tuning them to attend to memories derived
non-parametrically from past activations. By leveraging redundancy reduction,
our memory-consolidated vision transformer (MC-ViT) effortlessly extends its
context far into the past and exhibits excellent scaling behavior when learning
from longer videos. In doing so, MC-ViT sets a new state-of-the-art in
long-context video understanding on EgoSchema, Perception Test, and Diving48,
outperforming methods that benefit from orders of magnitude more parameters.