ChatPaper.aiChatPaper

MM1: 멀티모달 LLM 사전 학습의 방법론, 분석 및 통찰

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

March 14, 2024
저자: Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
cs.AI

초록

본 연구에서는 고성능 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs) 구축에 대해 논의합니다. 특히, 다양한 아키텍처 구성 요소와 데이터 선택의 중요성을 탐구합니다. 이미지 인코더, 시각-언어 연결기, 그리고 다양한 사전 학습 데이터 선택에 대한 신중하고 포괄적인 제거 실험을 통해 몇 가지 중요한 설계 교훈을 도출했습니다. 예를 들어, 대규모 다중모달 사전 학습을 위해 이미지-캡션, 교차된 이미지-텍스트, 그리고 텍스트 전용 데이터를 신중하게 혼합하는 것이 여러 벤치마크에서 최첨단(State-of-the-Art, SOTA) 소수 샷(few-shot) 결과를 달성하는 데 중요함을 입증했습니다. 또한, 이미지 인코더와 함께 이미지 해상도 및 이미지 토큰 수가 상당한 영향을 미치는 반면, 시각-언어 연결기 설계는 상대적으로 미미한 중요성을 가짐을 보여줍니다. 제시된 방법론을 확장하여 300억 개의 파라미터를 가진 MM1이라는 다중모달 모델 패밀리를 구축했습니다. 이는 조밀한 모델(dense models)과 전문가 혼합(Mixture-of-Experts, MoE) 변형으로 구성되며, 사전 학습 지표에서 SOTA를 달성하고, 기존의 다양한 다중모달 벤치마크에서 지도 학습 미세 조정 후 경쟁력 있는 성능을 보입니다. 대규모 사전 학습 덕분에 MM1은 향상된 문맥 내 학습(in-context learning) 및 다중 이미지 추론과 같은 매력적인 특성을 가지며, 소수 샷 사고 연쇄(few-shot chain-of-thought) 프롬프팅을 가능하게 합니다.
English
In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.

Summary

AI-Generated Summary

PDF12812December 15, 2024