LongVILA: 긴 비디오를 위한 긴 문맥 시각 언어 모델 확장
LongVILA: Scaling Long-Context Visual Language Models for Long Videos
August 19, 2024
저자: Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han
cs.AI
초록
멀티모달 기반 모델에 대한 장거리 컨텍스트 능력은 중요합니다. 우리는 장거리 비전-언어 모델을 위한 시스템, 모델 훈련 및 데이터셋 개발을 포함한 LongVILA라는 풀 스택 솔루션을 소개합니다. 시스템 측면에서는 장거리 훈련과 추론을 가능하게 하는 최초의 멀티모달 시퀀스 병렬성(MM-SP) 시스템을 소개합니다. 이를 통해 256개의 GPU에서 2백만 컨텍스트 길이 훈련이 가능합니다. MM-SP는 Ring-Style 시퀀스 병렬성보다 2.1배에서 5.7배, Megatron-LM보다 1.1배에서 1.4배 빠르며, Hugging Face Transformers와 원활하게 통합됩니다. 모델 훈련에 대해서는 정렬, 사전 훈련, 컨텍스트 확장, 그리고 장-단기 합동 지도 미세 조정으로 구성된 5단계 파이프라인을 제안합니다. 데이터셋 측면에서는 대규모 시각-언어 사전 훈련 데이터셋과 장거리 비디오 지시-추론 데이터셋을 세심하게 구축하여 다단계 훈련 과정을 지원합니다. 이 풀 스택 솔루션은 VILA의 가능한 프레임 수를 128배로 확장하고(8에서 1024프레임), 장거리 비디오 캡션 점수를 2.00에서 3.26(1.6배)로 향상시켜 1400프레임 비디오(274k 컨텍스트 길이)에서 99.5%의 정확도를 달성합니다. 또한 LongVILA-8B는 비디오 프레임이 증가함에 따라 VideoMME 벤치마크에서 장거리 비디오의 성능을 일관되게 향상시킵니다.
English
Long-context capability is critical for multi-modal foundation models. We
introduce LongVILA, a full-stack solution for long-context vision-language
models, including system, model training, and dataset development. On the
system side, we introduce the first Multi-Modal Sequence Parallelism (MM-SP)
system that enables long-context training and inference, enabling 2M context
length training on 256 GPUs. MM-SP is also efficient, being 2.1x - 5.7x faster
than Ring-Style Sequence Parallelism and 1.1x - 1.4x faster than Megatron-LM in
text-only settings. Moreover, it seamlessly integrates with Hugging Face
Transformers. For model training, we propose a five-stage pipeline comprising
alignment, pre-training, context extension, and long-short joint supervised
fine-tuning. Regarding datasets, we meticulously construct large-scale visual
language pre-training datasets and long video instruction-following datasets to
support our multi-stage training process. The full-stack solution extends the
feasible frame number of VILA by a factor of 128 (from 8 to 1024 frames) and
improves long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5%
accuracy in 1400-frames video (274k context length) needle in a haystack.
LongVILA-8B also demonstrates a consistent improvement in performance on long
videos within the VideoMME benchmark as the video frames increase.Summary
AI-Generated Summary