VILA: 시각 언어 모델을 위한 사전 학습에 관하여
VILA: On Pre-training for Visual Language Models
December 12, 2023
저자: Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
cs.AI
초록
대형 언어 모델(LLM)의 최근 성공과 함께 시각 언어 모델(VLM)이 빠르게 발전하고 있습니다. 시각 입력을 통해 LLM을 확장하려는 시각적 명령어 튜닝에 대한 노력이 증가하고 있지만, 모델이 두 모달리티에 대한 결합 모델링을 학습하는 시각 언어 사전 학습 과정에 대한 심층적인 연구는 부족한 상황입니다. 본 연구에서는 단계별로 통제 가능한 비교를 통해 LLM을 VLM으로 확장하는 VLM 사전 학습의 설계 옵션을 검토합니다. 우리는 세 가지 주요 발견을 소개합니다: (1) 사전 학습 중 LLM을 고정하는 것은 괜찮은 제로샷 성능을 달성할 수 있지만, 컨텍스트 내 학습 능력이 부족하며, 이를 위해서는 LLM을 고정 해제해야 합니다; (2) 인터리브된 사전 학습 데이터는 유익한 반면, 이미지-텍스트 쌍만으로는 최적이 아닙니다; (3) 명령어 미세 조정 중 텍스트 전용 명령어 데이터를 이미지-텍스트 데이터에 재혼합하는 것은 텍스트 전용 작업의 성능 저하를 개선할 뿐만 아니라 VLM 작업 정확도도 향상시킵니다. 개선된 사전 학습 레시피를 통해 우리는 VILA라는 시각 언어 모델 패밀리를 구축했으며, 이는 LLaVA-1.5와 같은 최신 모델을 주요 벤치마크에서 일관되게 능가합니다. 다중 모달리티 사전 학습은 또한 VILA의 매력적인 특성, 즉 다중 이미지 추론, 향상된 컨텍스트 내 학습, 더 나은 세계 지식을 드러내는 데 도움을 줍니다.
English
Visual language models (VLMs) rapidly progressed with the recent success of
large language models. There have been growing efforts on visual instruction
tuning to extend the LLM with visual inputs, but lacks an in-depth study of the
visual language pre-training process, where the model learns to perform joint
modeling on both modalities. In this work, we examine the design options for
VLM pre-training by augmenting LLM towards VLM through step-by-step
controllable comparisons. We introduce three main findings: (1) freezing LLMs
during pre-training can achieve decent zero-shot performance, but lack
in-context learning capability, which requires unfreezing the LLM; (2)
interleaved pre-training data is beneficial whereas image-text pairs alone are
not optimal; (3) re-blending text-only instruction data to image-text data
during instruction fine-tuning not only remedies the degradation of text-only
tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe
we build VILA, a Visual Language model family that consistently outperforms the
state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells
and whistles. Multi-modal pre-training also helps unveil appealing properties
of VILA, including multi-image reasoning, enhanced in-context learning, and
better world knowledge.