MovieChat: Van Dichte Tokens naar Sparse Geheugen voor Langdurige Video Begrip

Samenvatting

Onlangs is er gewerkt aan het integreren van videofundamentmodellen en grote taalmodellen om een video-begripsysteem te bouwen dat de beperkingen van specifieke vooraf gedefinieerde visietaken overstijgt. Toch kunnen bestaande systemen alleen omgaan met video's met zeer weinig frames. Voor lange video's blijven de rekencomplexiteit, geheugenkosten en langetermijntemporele verbindingen de uitdagingen. Geïnspireerd door het Atkinson-Shiffrin-geheugenmodel, ontwikkelen we een geheugenmechanisme dat bestaat uit een snel bijgewerkt kortetermijngeheugen en een compact maar blijvend langetermijngeheugen. We gebruiken tokens in Transformers als dragers van het geheugen. MovieChat behaalt state-of-the-art prestaties in het begrijpen van lange video's.

English

Recently, integrating video foundation models and large language models to build a video understanding system overcoming the limitations of specific pre-defined vision tasks. Yet, existing systems can only handle videos with very few frames. For long videos, the computation complexity, memory cost, and long-term temporal connection are the remaining challenges. Inspired by Atkinson-Shiffrin memory model, we develop an memory mechanism including a rapidly updated short-term memory and a compact thus sustained long-term memory. We employ tokens in Transformers as the carriers of memory. MovieChat achieves state-of-the-art performace in long video understanding.

MovieChat: Van Dichte Tokens naar Sparse Geheugen voor Langdurige Video Begrip

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

Samenvatting

Support