ChatPaper.aiChatPaper

MovieChat: De Tokens Densos a Memoria Escasa para la Comprensión de Videos Largos

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

July 31, 2023
Autores: Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, Gaoang Wang
cs.AI

Resumen

Recientemente, la integración de modelos base de video y modelos de lenguaje grande para construir un sistema de comprensión de video ha superado las limitaciones de tareas visuales predefinidas específicas. Sin embargo, los sistemas existentes solo pueden manejar videos con muy pocos fotogramas. Para videos largos, la complejidad computacional, el costo de memoria y la conexión temporal a largo plazo siguen siendo desafíos pendientes. Inspirados por el modelo de memoria de Atkinson-Shiffrin, desarrollamos un mecanismo de memoria que incluye una memoria a corto plazo de actualización rápida y una memoria a largo plazo compacta y sostenida. Utilizamos tokens en Transformers como portadores de la memoria. MovieChat logra un rendimiento de vanguardia en la comprensión de videos largos.
English
Recently, integrating video foundation models and large language models to build a video understanding system overcoming the limitations of specific pre-defined vision tasks. Yet, existing systems can only handle videos with very few frames. For long videos, the computation complexity, memory cost, and long-term temporal connection are the remaining challenges. Inspired by Atkinson-Shiffrin memory model, we develop an memory mechanism including a rapidly updated short-term memory and a compact thus sustained long-term memory. We employ tokens in Transformers as the carriers of memory. MovieChat achieves state-of-the-art performace in long video understanding.
PDF160December 15, 2024