MovieChat: Von dichten Token zu sparsamem Speicher für das Verständnis langer Videos
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding
July 31, 2023
Autoren: Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, Gaoang Wang
cs.AI
Zusammenfassung
Kürzlich wurden Video-Foundation-Modelle und große Sprachmodelle integriert, um ein Video-Verständnissystem zu entwickeln, das die Grenzen spezifischer, vordefinierter Vision-Aufgaben überwindet. Dennoch können bestehende Systeme nur Videos mit sehr wenigen Bildern verarbeiten. Bei langen Videos bleiben die Berechnungskomplexität, der Speicherbedarf und die langfristige zeitliche Verknüpfung die größten Herausforderungen. Inspiriert vom Atkinson-Shiffrin-Gedächtnismodell entwickeln wir einen Gedächtnismechanismus, der ein schnell aktualisiertes Kurzzeitgedächtnis und ein kompaktes, dauerhaftes Langzeitgedächtnis umfasst. Wir verwenden Tokens in Transformern als Träger des Gedächtnisses. MovieChat erreicht state-of-the-art Leistung im Verständnis langer Videos.
English
Recently, integrating video foundation models and large language models to
build a video understanding system overcoming the limitations of specific
pre-defined vision tasks. Yet, existing systems can only handle videos with
very few frames. For long videos, the computation complexity, memory cost, and
long-term temporal connection are the remaining challenges. Inspired by
Atkinson-Shiffrin memory model, we develop an memory mechanism including a
rapidly updated short-term memory and a compact thus sustained long-term
memory. We employ tokens in Transformers as the carriers of memory. MovieChat
achieves state-of-the-art performace in long video understanding.