ChatPaper.aiChatPaper

언어에서 시각으로의 장문맥 전이

Long Context Transfer from Language to Vision

June 24, 2024
저자: Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu
cs.AI

초록

비디오 시퀀스는 귀중한 시간적 정보를 제공하지만, 기존의 대규모 멀티모달 모델(LMMs)은 극도로 긴 비디오를 이해하는 데 한계가 있습니다. 많은 연구들이 시각적 리샘플러를 사용하여 시각적 토큰의 수를 줄이는 방식으로 이 문제를 해결하려고 합니다. 반면, 본 논문에서는 언어 모델의 관점에서 이 문제에 접근합니다. 언어 백본의 컨텍스트 길이를 단순히 확장함으로써, LMMs가 어떠한 비디오 훈련 없이도 훨씬 더 많은 시각적 토큰을 이해할 수 있게 합니다. 우리는 이 현상을 장기 컨텍스트 전이(long context transfer)라고 부르며, 그 특성을 신중하게 분석합니다. LMMs가 시각 모달리티에서 장기 컨텍스트로 일반화하는 능력을 효과적으로 측정하기 위해, 언어 모델의 NIAH(Needle-In-A-Haystack) 테스트에서 영감을 받은 순수 합성 장기 시각 벤치마크인 V-NIAH을 개발했습니다. 우리가 제안한 Long Video Assistant(LongVA)는 추가적인 복잡성 없이 2000 프레임 또는 20만 개 이상의 시각적 토큰을 처리할 수 있습니다. 확장된 컨텍스트 길이를 통해 LongVA는 더 많은 입력 프레임을 밀집하게 샘플링함으로써 7B 규모 모델 중 Video-MME에서 최첨단 성능을 달성합니다. 우리의 작업은 https://github.com/EvolvingLMMs-Lab/LongVA에서 오픈소스로 제공됩니다.
English
Video sequences offer valuable temporal information, but existing large multimodal models (LMMs) fall short in understanding extremely long videos. Many works address this by reducing the number of visual tokens using visual resamplers. Alternatively, in this paper, we approach this problem from the perspective of the language model. By simply extrapolating the context length of the language backbone, we enable LMMs to comprehend orders of magnitude more visual tokens without any video training. We call this phenomenon long context transfer and carefully ablate its properties. To effectively measure LMMs' ability to generalize to long contexts in the vision modality, we develop V-NIAH (Visual Needle-In-A-Haystack), a purely synthetic long vision benchmark inspired by the language model's NIAH test. Our proposed Long Video Assistant (LongVA) can process 2000 frames or over 200K visual tokens without additional complexities. With its extended context length, LongVA achieves state-of-the-art performance on Video-MME among 7B-scale models by densely sampling more input frames. Our work is open-sourced at https://github.com/EvolvingLMMs-Lab/LongVA.

Summary

AI-Generated Summary

PDF342November 29, 2024