ChatPaper.aiChatPaper

Langzeitübertragung von Kontext von Sprache zu Vision

Long Context Transfer from Language to Vision

June 24, 2024
Autoren: Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu
cs.AI

Zusammenfassung

Videosequenzen bieten wertvolle zeitliche Informationen, aber bestehende große multimodale Modelle (LMMs) haben Schwierigkeiten, extrem lange Videos zu verstehen. Viele Arbeiten lösen dieses Problem, indem sie die Anzahl der visuellen Tokens mithilfe von visuellen Resamplern reduzieren. Alternativ gehen wir in diesem Papier das Problem aus der Perspektive des Sprachmodells an. Durch einfache Extrapolation der Kontextlänge des Sprachrückgrats ermöglichen wir es LMMs, Größenordnungen mehr visuelle Tokens ohne spezielles Videotraining zu erfassen. Wir nennen dieses Phänomen "Langkontexttransfer" und untersuchen seine Eigenschaften sorgfältig. Um die Fähigkeit von LMMs, sich auf lange Kontexte in der visuellen Modalität zu verallgemeinern, effektiv zu messen, entwickeln wir V-NIAH (Visual Needle-In-A-Haystack), einen rein synthetischen langen Vision-Benchmark, inspiriert vom NIAH-Test des Sprachmodells. Unser vorgeschlagener Langvideo-Assistent (LongVA) kann 2000 Frames oder über 200.000 visuelle Tokens ohne zusätzliche Komplexitäten verarbeiten. Mit seiner erweiterten Kontextlänge erzielt LongVA Spitzenleistungen bei Video-MME unter 7B-Maßstabsmodellen, indem mehr Eingabeframes dicht abgetastet werden. Unsere Arbeit ist unter https://github.com/EvolvingLMMs-Lab/LongVA Open Source verfügbar.
English
Video sequences offer valuable temporal information, but existing large multimodal models (LMMs) fall short in understanding extremely long videos. Many works address this by reducing the number of visual tokens using visual resamplers. Alternatively, in this paper, we approach this problem from the perspective of the language model. By simply extrapolating the context length of the language backbone, we enable LMMs to comprehend orders of magnitude more visual tokens without any video training. We call this phenomenon long context transfer and carefully ablate its properties. To effectively measure LMMs' ability to generalize to long contexts in the vision modality, we develop V-NIAH (Visual Needle-In-A-Haystack), a purely synthetic long vision benchmark inspired by the language model's NIAH test. Our proposed Long Video Assistant (LongVA) can process 2000 frames or over 200K visual tokens without additional complexities. With its extended context length, LongVA achieves state-of-the-art performance on Video-MME among 7B-scale models by densely sampling more input frames. Our work is open-sourced at https://github.com/EvolvingLMMs-Lab/LongVA.

Summary

AI-Generated Summary

PDF342November 29, 2024