MovieChat: Van Dichte Tokens naar Sparse Geheugen voor Langdurige Video Begrip
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding
July 31, 2023
Auteurs: Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, Gaoang Wang
cs.AI
Samenvatting
Onlangs is er gewerkt aan het integreren van videofundamentmodellen en grote taalmodellen om een video-begripsysteem te bouwen dat de beperkingen van specifieke vooraf gedefinieerde visietaken overstijgt. Toch kunnen bestaande systemen alleen omgaan met video's met zeer weinig frames. Voor lange video's blijven de rekencomplexiteit, geheugenkosten en langetermijntemporele verbindingen de uitdagingen. Geïnspireerd door het Atkinson-Shiffrin-geheugenmodel, ontwikkelen we een geheugenmechanisme dat bestaat uit een snel bijgewerkt kortetermijngeheugen en een compact maar blijvend langetermijngeheugen. We gebruiken tokens in Transformers als dragers van het geheugen. MovieChat behaalt state-of-the-art prestaties in het begrijpen van lange video's.
English
Recently, integrating video foundation models and large language models to
build a video understanding system overcoming the limitations of specific
pre-defined vision tasks. Yet, existing systems can only handle videos with
very few frames. For long videos, the computation complexity, memory cost, and
long-term temporal connection are the remaining challenges. Inspired by
Atkinson-Shiffrin memory model, we develop an memory mechanism including a
rapidly updated short-term memory and a compact thus sustained long-term
memory. We employ tokens in Transformers as the carriers of memory. MovieChat
achieves state-of-the-art performace in long video understanding.