ChatPaper.aiChatPaper

MM1.5 : Méthodes, Analyse et Idées issues du Réglage Fin du LLM Multimodal

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

September 30, 2024
Auteurs: Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang
cs.AI

Résumé

Nous présentons MM1.5, une nouvelle famille de grands modèles de langage multimodaux (MLLMs) conçus pour améliorer les capacités dans la compréhension d'images riches en texte, la référence visuelle et l'ancrage, ainsi que le raisonnement multi-images. En s'appuyant sur l'architecture MM1, MM1.5 adopte une approche centrée sur les données pour l'entraînement du modèle, explorant systématiquement l'impact de mélanges de données diversifiés tout au long du cycle de vie de l'entraînement du modèle. Cela inclut des données OCR de haute qualité et des légendes synthétiques pour un pré-entraînement continu, ainsi qu'un mélange de données d'instructions visuelles optimisé pour un accordage fin supervisé. Nos modèles vont de 1 milliard à 30 milliards de paramètres, englobant à la fois des variantes denses et des variantes de mélange d'experts (MoE), et démontrent que la curation minutieuse des données et les stratégies d'entraînement peuvent produire de bonnes performances même à petite échelle (1 milliard et 3 milliards). De plus, nous introduisons deux variantes spécialisées : MM1.5-Video, conçu pour la compréhension des vidéos, et MM1.5-UI, adapté à la compréhension des interfaces utilisateur mobiles. À travers des études empiriques approfondies et des ablations, nous fournissons des aperçus détaillés des processus d'entraînement et des décisions qui ont guidé nos conceptions finales, offrant des orientations précieuses pour les futures recherches dans le développement des MLLMs.
English
We present MM1.5, a new family of multimodal large language models (MLLMs) designed to enhance capabilities in text-rich image understanding, visual referring and grounding, and multi-image reasoning. Building upon the MM1 architecture, MM1.5 adopts a data-centric approach to model training, systematically exploring the impact of diverse data mixtures across the entire model training lifecycle. This includes high-quality OCR data and synthetic captions for continual pre-training, as well as an optimized visual instruction-tuning data mixture for supervised fine-tuning. Our models range from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE) variants, and demonstrate that careful data curation and training strategies can yield strong performance even at small scales (1B and 3B). Additionally, we introduce two specialized variants: MM1.5-Video, designed for video understanding, and MM1.5-UI, tailored for mobile UI understanding. Through extensive empirical studies and ablations, we provide detailed insights into the training processes and decisions that inform our final designs, offering valuable guidance for future research in MLLM development.

Summary

AI-Generated Summary

PDF573November 13, 2024