Améliorer la capacité de raisonnement des grands modèles de langage multimodaux via l'optimisation des préférences mixtesEnhancing the Reasoning Ability of Multimodal Large Language Models via
Mixed Preference Optimization
Les modèles de langage multimodaux larges open-source (MLLMs) existants suivent généralement un processus d'entraînement impliquant la pré-formation et le fine-tuning supervisé. Cependant, ces modèles souffrent de décalages de distribution, ce qui limite leur raisonnement multimodal, en particulier dans les performances de Chaîne de Pensée (CoT). Pour remédier à cela, nous introduisons un processus d'optimisation de préférences (PO) pour améliorer les capacités de raisonnement multimodal des MLLMs. Plus précisément, (1) du côté des données, nous concevons un pipeline de construction de données de préférences automatisé pour créer MMPR, un ensemble de données de préférences de raisonnement multimodal de haute qualité et à grande échelle, et (2) du côté du modèle, nous explorons l'intégration de PO avec les MLLMs, en développant une méthode simple mais efficace, appelée Optimisation de Préférences Mixtes (MPO), qui améliore les performances multimodales de CoT. Notre approche démontre des performances améliorées sur plusieurs benchmarks, en particulier dans les tâches de raisonnement multimodal. Notamment, notre modèle, InternVL2-8B-MPO, atteint une précision de 67,0 sur MathVista, surpassant InternVL2-8B de 8,7 points et atteignant des performances comparables à celles d'InternVL2-76B, qui est 10 fois plus grand. Nous espérons que cette étude pourra inspirer de nouvelles avancées dans les MLLMs. Le code, les données et le modèle seront publiés publiquement.