Transfert de contexte long du langage à la vision
Long Context Transfer from Language to Vision
June 24, 2024
Auteurs: Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu
cs.AI
Résumé
Les séquences vidéo offrent des informations temporelles précieuses, mais les grands modèles multimodaux (LMM) existants peinent à comprendre les vidéos extrêmement longues. De nombreux travaux abordent ce problème en réduisant le nombre de tokens visuels à l'aide de rééchantillonneurs visuels. Alternativement, dans cet article, nous abordons ce problème du point de vue du modèle de langage. En extrapolant simplement la longueur de contexte du modèle de langage de base, nous permettons aux LMM de comprendre un ordre de grandeur de tokens visuels supplémentaires sans aucun entraînement vidéo. Nous appelons ce phénomène le transfert de contexte long et étudions attentivement ses propriétés. Pour mesurer efficacement la capacité des LMM à généraliser à des contextes longs dans la modalité visuelle, nous développons V-NIAH (Visual Needle-In-A-Haystack), un benchmark visuel long purement synthétique inspiré du test NIAH des modèles de langage. Notre Assistant Vidéo Long (LongVA) proposé peut traiter 2000 images ou plus de 200K tokens visuels sans complexités supplémentaires. Avec sa longueur de contexte étendue, LongVA atteint des performances de pointe sur Video-MME parmi les modèles de taille 7B en échantillonnant de manière dense plus d'images d'entrée. Notre travail est open-source à l'adresse https://github.com/EvolvingLMMs-Lab/LongVA.
English
Video sequences offer valuable temporal information, but existing large
multimodal models (LMMs) fall short in understanding extremely long videos.
Many works address this by reducing the number of visual tokens using visual
resamplers. Alternatively, in this paper, we approach this problem from the
perspective of the language model. By simply extrapolating the context length
of the language backbone, we enable LMMs to comprehend orders of magnitude more
visual tokens without any video training. We call this phenomenon long context
transfer and carefully ablate its properties. To effectively measure LMMs'
ability to generalize to long contexts in the vision modality, we develop
V-NIAH (Visual Needle-In-A-Haystack), a purely synthetic long vision benchmark
inspired by the language model's NIAH test. Our proposed Long Video Assistant
(LongVA) can process 2000 frames or over 200K visual tokens without additional
complexities. With its extended context length, LongVA achieves
state-of-the-art performance on Video-MME among 7B-scale models by densely
sampling more input frames. Our work is open-sourced at
https://github.com/EvolvingLMMs-Lab/LongVA.Summary
AI-Generated Summary