MM1: 멀티모달 LLM 사전 학습의 방법론, 분석 및 통찰MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
본 연구에서는 고성능 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs) 구축에 대해 논의합니다. 특히, 다양한 아키텍처 구성 요소와 데이터 선택의 중요성을 탐구합니다. 이미지 인코더, 시각-언어 연결기, 그리고 다양한 사전 학습 데이터 선택에 대한 신중하고 포괄적인 제거 실험을 통해 몇 가지 중요한 설계 교훈을 도출했습니다. 예를 들어, 대규모 다중모달 사전 학습을 위해 이미지-캡션, 교차된 이미지-텍스트, 그리고 텍스트 전용 데이터를 신중하게 혼합하는 것이 여러 벤치마크에서 최첨단(State-of-the-Art, SOTA) 소수 샷(few-shot) 결과를 달성하는 데 중요함을 입증했습니다. 또한, 이미지 인코더와 함께 이미지 해상도 및 이미지 토큰 수가 상당한 영향을 미치는 반면, 시각-언어 연결기 설계는 상대적으로 미미한 중요성을 가짐을 보여줍니다. 제시된 방법론을 확장하여 300억 개의 파라미터를 가진 MM1이라는 다중모달 모델 패밀리를 구축했습니다. 이는 조밀한 모델(dense models)과 전문가 혼합(Mixture-of-Experts, MoE) 변형으로 구성되며, 사전 학습 지표에서 SOTA를 달성하고, 기존의 다양한 다중모달 벤치마크에서 지도 학습 미세 조정 후 경쟁력 있는 성능을 보입니다. 대규모 사전 학습 덕분에 MM1은 향상된 문맥 내 학습(in-context learning) 및 다중 이미지 추론과 같은 매력적인 특성을 가지며, 소수 샷 사고 연쇄(few-shot chain-of-thought) 프롬프팅을 가능하게 합니다.