MovieChat: От плотных токенов к разреженной памяти для понимания длинных видео
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding
July 31, 2023
Авторы: Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, Gaoang Wang
cs.AI
Аннотация
В последнее время интеграция базовых моделей для работы с видео и крупных языковых моделей позволила создать системы понимания видео, преодолевающие ограничения конкретных предопределенных задач компьютерного зрения. Однако существующие системы способны обрабатывать только видео с очень малым количеством кадров. Для длинных видео вычислительная сложность, затраты памяти и установление долгосрочных временных связей остаются нерешенными проблемами. Вдохновленные моделью памяти Аткинсона-Шиффрина, мы разработали механизм памяти, включающий быстро обновляемую кратковременную память и компактную, но устойчивую долговременную память. Мы используем токены в Transformers в качестве носителей памяти. MovieChat демонстрирует наилучшие результаты в понимании длинных видео.
English
Recently, integrating video foundation models and large language models to
build a video understanding system overcoming the limitations of specific
pre-defined vision tasks. Yet, existing systems can only handle videos with
very few frames. For long videos, the computation complexity, memory cost, and
long-term temporal connection are the remaining challenges. Inspired by
Atkinson-Shiffrin memory model, we develop an memory mechanism including a
rapidly updated short-term memory and a compact thus sustained long-term
memory. We employ tokens in Transformers as the carriers of memory. MovieChat
achieves state-of-the-art performace in long video understanding.