다중 모달 LLM 미세 조정의 방법, 분석 및 통찰력에 대한 지침MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
우리는 MM1.5를 제시합니다. MM1.5는 텍스트 풍부한 이미지 이해, 시각적 지칭 및 기반, 그리고 다중 이미지 추론 능력을 향상시키기 위해 설계된 새로운 멀티모달 대형 언어 모델(MLLM) 패밀리입니다. MM1 아키텍처를 기반으로 구축된 MM1.5는 모델 훈련에 데이터 중심 접근 방식을 채택하여, 전체 모델 훈련 주기 동안 다양한 데이터 혼합의 영향을 체계적으로 탐구합니다. 이는 고품질 OCR 데이터 및 합성 캡션을 계속적으로 사전 훈련에 사용하고, 지도된 세밀한 튜닝을 위한 최적화된 시각적 지시 데이터 혼합을 포함합니다. 우리의 모델은 10억부터 300억까지의 매개변수를 갖추며, 밀집형과 전문가 혼합(MoE) 변형을 모두 포함하며, 신중한 데이터 선별과 훈련 전략이 심지어 소규모(10억 및 30억)에서도 강력한 성능을 얻을 수 있음을 보여줍니다. 게다가, 우리는 비디오 이해를 위해 설계된 MM1.5-Video와 모바일 UI 이해에 특화된 MM1.5-UI 두 가지 전문화된 변형을 소개합니다. 광범위한 경험적 연구와 제거 실험을 통해, 우리는 최종 설계에 영향을 미치는 훈련 과정과 결정에 대한 상세한 통찰을 제공하며, MLLM 개발에 대한 미래 연구를 위한 가치 있는 지침을 제공합니다.