MM1.5 : Méthodes, Analyse et Idées issues du Réglage Fin du LLM MultimodalMM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
Nous présentons MM1.5, une nouvelle famille de grands modèles de langage multimodaux (MLLMs) conçus pour améliorer les capacités dans la compréhension d'images riches en texte, la référence visuelle et l'ancrage, ainsi que le raisonnement multi-images. En s'appuyant sur l'architecture MM1, MM1.5 adopte une approche centrée sur les données pour l'entraînement du modèle, explorant systématiquement l'impact de mélanges de données diversifiés tout au long du cycle de vie de l'entraînement du modèle. Cela inclut des données OCR de haute qualité et des légendes synthétiques pour un pré-entraînement continu, ainsi qu'un mélange de données d'instructions visuelles optimisé pour un accordage fin supervisé. Nos modèles vont de 1 milliard à 30 milliards de paramètres, englobant à la fois des variantes denses et des variantes de mélange d'experts (MoE), et démontrent que la curation minutieuse des données et les stratégies d'entraînement peuvent produire de bonnes performances même à petite échelle (1 milliard et 3 milliards). De plus, nous introduisons deux variantes spécialisées : MM1.5-Video, conçu pour la compréhension des vidéos, et MM1.5-UI, adapté à la compréhension des interfaces utilisateur mobiles. À travers des études empiriques approfondies et des ablations, nous fournissons des aperçus détaillés des processus d'entraînement et des décisions qui ont guidé nos conceptions finales, offrant des orientations précieuses pour les futures recherches dans le développement des MLLMs.