MM1.5: Métodos, Análises e Perspectivas da Afinação Fina de LLM Multimodal

Resumo

Apresentamos o MM1.5, uma nova família de modelos de linguagem multimodais grandes (MLLMs) projetados para aprimorar as capacidades em compreensão de imagens ricas em texto, referência visual e fundamentação, e raciocínio multi-imagem. Construindo sobre a arquitetura MM1, o MM1.5 adota uma abordagem centrada em dados para o treinamento do modelo, explorando sistematicamente o impacto de diversas misturas de dados ao longo de todo o ciclo de treinamento do modelo. Isso inclui dados de OCR de alta qualidade e legendas sintéticas para pré-treinamento contínuo, bem como uma mistura de dados otimizada para ajuste de instruções visuais para ajuste fino supervisionado. Nossos modelos variam de 1B a 30B de parâmetros, abrangendo variantes densas e de mistura de especialistas (MoE), e demonstram que a curadoria cuidadosa de dados e estratégias de treinamento podem resultar em um desempenho sólido mesmo em escalas pequenas (1B e 3B). Além disso, introduzimos duas variantes especializadas: MM1.5-Video, projetado para compreensão de vídeo, e MM1.5-UI, adaptado para compreensão de interface de usuário móvel. Através de extensos estudos empíricos e ablações, fornecemos insights detalhados sobre os processos de treinamento e decisões que informam nossos designs finais, oferecendo orientações valiosas para pesquisas futuras no desenvolvimento de MLLMs.

English

We present MM1.5, a new family of multimodal large language models (MLLMs) designed to enhance capabilities in text-rich image understanding, visual referring and grounding, and multi-image reasoning. Building upon the MM1 architecture, MM1.5 adopts a data-centric approach to model training, systematically exploring the impact of diverse data mixtures across the entire model training lifecycle. This includes high-quality OCR data and synthetic captions for continual pre-training, as well as an optimized visual instruction-tuning data mixture for supervised fine-tuning. Our models range from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE) variants, and demonstrate that careful data curation and training strategies can yield strong performance even at small scales (1B and 3B). Additionally, we introduce two specialized variants: MM1.5-Video, designed for video understanding, and MM1.5-UI, tailored for mobile UI understanding. Through extensive empirical studies and ablations, we provide detailed insights into the training processes and decisions that inform our final designs, offering valuable guidance for future research in MLLM development.

MM1.5: Métodos, Análises e Perspectivas da Afinação Fina de LLM Multimodal

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

Resumo

Support