LongVILA: 긴 비디오를 위한 긴 문맥 시각 언어 모델 확장LongVILA: Scaling Long-Context Visual Language Models for Long Videos
멀티모달 기반 모델에 대한 장거리 컨텍스트 능력은 중요합니다. 우리는 장거리 비전-언어 모델을 위한 시스템, 모델 훈련 및 데이터셋 개발을 포함한 LongVILA라는 풀 스택 솔루션을 소개합니다. 시스템 측면에서는 장거리 훈련과 추론을 가능하게 하는 최초의 멀티모달 시퀀스 병렬성(MM-SP) 시스템을 소개합니다. 이를 통해 256개의 GPU에서 2백만 컨텍스트 길이 훈련이 가능합니다. MM-SP는 Ring-Style 시퀀스 병렬성보다 2.1배에서 5.7배, Megatron-LM보다 1.1배에서 1.4배 빠르며, Hugging Face Transformers와 원활하게 통합됩니다. 모델 훈련에 대해서는 정렬, 사전 훈련, 컨텍스트 확장, 그리고 장-단기 합동 지도 미세 조정으로 구성된 5단계 파이프라인을 제안합니다. 데이터셋 측면에서는 대규모 시각-언어 사전 훈련 데이터셋과 장거리 비디오 지시-추론 데이터셋을 세심하게 구축하여 다단계 훈련 과정을 지원합니다. 이 풀 스택 솔루션은 VILA의 가능한 프레임 수를 128배로 확장하고(8에서 1024프레임), 장거리 비디오 캡션 점수를 2.00에서 3.26(1.6배)로 향상시켜 1400프레임 비디오(274k 컨텍스트 길이)에서 99.5%의 정확도를 달성합니다. 또한 LongVILA-8B는 비디오 프레임이 증가함에 따라 VideoMME 벤치마크에서 장거리 비디오의 성능을 일관되게 향상시킵니다.