言語から視覚への長文脈転送
Long Context Transfer from Language to Vision
June 24, 2024
著者: Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu
cs.AI
要旨
映像シーケンスは貴重な時間的情報を提供しますが、既存の大規模マルチモーダルモデル(LMM)は極めて長い映像を理解する能力に欠けています。多くの研究では、ビジュアルリサンプラーを使用してビジュアルトークンの数を削減することでこの問題に対処しています。一方、本論文では、言語モデルの観点からこの問題にアプローチします。言語バックボーンのコンテキスト長を単純に外挿することで、LMMがビデオトレーニングなしに桁違いに多くのビジュアルトークンを理解できるようにします。この現象を「長文脈転移」と呼び、その特性を慎重に検証します。LMMが視覚モダリティにおける長文脈への一般化能力を効果的に測定するために、言語モデルのNIAHテストにインスパイアされた純粋に合成的な長文脈視覚ベンチマークであるV-NIAH(Visual Needle-In-A-Haystack)を開発しました。提案するLong Video Assistant(LongVA)は、追加の複雑さなしに2000フレームまたは20万以上のビジュアルトークンを処理できます。拡張されたコンテキスト長により、LongVAはより多くの入力フレームを密にサンプリングすることで、7Bスケールのモデルの中でVideo-MMEにおいて最先端の性能を達成します。本研究はhttps://github.com/EvolvingLMMs-Lab/LongVAでオープンソース化されています。
English
Video sequences offer valuable temporal information, but existing large
multimodal models (LMMs) fall short in understanding extremely long videos.
Many works address this by reducing the number of visual tokens using visual
resamplers. Alternatively, in this paper, we approach this problem from the
perspective of the language model. By simply extrapolating the context length
of the language backbone, we enable LMMs to comprehend orders of magnitude more
visual tokens without any video training. We call this phenomenon long context
transfer and carefully ablate its properties. To effectively measure LMMs'
ability to generalize to long contexts in the vision modality, we develop
V-NIAH (Visual Needle-In-A-Haystack), a purely synthetic long vision benchmark
inspired by the language model's NIAH test. Our proposed Long Video Assistant
(LongVA) can process 2000 frames or over 200K visual tokens without additional
complexities. With its extended context length, LongVA achieves
state-of-the-art performance on Video-MME among 7B-scale models by densely
sampling more input frames. Our work is open-sourced at
https://github.com/EvolvingLMMs-Lab/LongVA.Summary
AI-Generated Summary