MM1.5: Métodos, Análises e Perspectivas da Afinação Fina de LLM MultimodalMM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
Apresentamos o MM1.5, uma nova família de modelos de linguagem multimodais grandes (MLLMs) projetados para aprimorar as capacidades em compreensão de imagens ricas em texto, referência visual e fundamentação, e raciocínio multi-imagem. Construindo sobre a arquitetura MM1, o MM1.5 adota uma abordagem centrada em dados para o treinamento do modelo, explorando sistematicamente o impacto de diversas misturas de dados ao longo de todo o ciclo de treinamento do modelo. Isso inclui dados de OCR de alta qualidade e legendas sintéticas para pré-treinamento contínuo, bem como uma mistura de dados otimizada para ajuste de instruções visuais para ajuste fino supervisionado. Nossos modelos variam de 1B a 30B de parâmetros, abrangendo variantes densas e de mistura de especialistas (MoE), e demonstram que a curadoria cuidadosa de dados e estratégias de treinamento podem resultar em um desempenho sólido mesmo em escalas pequenas (1B e 3B). Além disso, introduzimos duas variantes especializadas: MM1.5-Video, projetado para compreensão de vídeo, e MM1.5-UI, adaptado para compreensão de interface de usuário móvel. Através de extensos estudos empíricos e ablações, fornecemos insights detalhados sobre os processos de treinamento e decisões que informam nossos designs finais, oferecendo orientações valiosas para pesquisas futuras no desenvolvimento de MLLMs.