MovieChat: Von dichten Token zu sparsamem Speicher für das Verständnis langer Videos

papers.abstract

Kürzlich wurden Video-Foundation-Modelle und große Sprachmodelle integriert, um ein Video-Verständnissystem zu entwickeln, das die Grenzen spezifischer, vordefinierter Vision-Aufgaben überwindet. Dennoch können bestehende Systeme nur Videos mit sehr wenigen Bildern verarbeiten. Bei langen Videos bleiben die Berechnungskomplexität, der Speicherbedarf und die langfristige zeitliche Verknüpfung die größten Herausforderungen. Inspiriert vom Atkinson-Shiffrin-Gedächtnismodell entwickeln wir einen Gedächtnismechanismus, der ein schnell aktualisiertes Kurzzeitgedächtnis und ein kompaktes, dauerhaftes Langzeitgedächtnis umfasst. Wir verwenden Tokens in Transformern als Träger des Gedächtnisses. MovieChat erreicht state-of-the-art Leistung im Verständnis langer Videos.

English

Recently, integrating video foundation models and large language models to build a video understanding system overcoming the limitations of specific pre-defined vision tasks. Yet, existing systems can only handle videos with very few frames. For long videos, the computation complexity, memory cost, and long-term temporal connection are the remaining challenges. Inspired by Atkinson-Shiffrin memory model, we develop an memory mechanism including a rapidly updated short-term memory and a compact thus sustained long-term memory. We employ tokens in Transformers as the carriers of memory. MovieChat achieves state-of-the-art performace in long video understanding.

MovieChat: Von dichten Token zu sparsamem Speicher für das Verständnis langer Videos

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

papers.abstract

Support