ChatPaper.aiChatPaper

MAmmoTH-VL : Sollicitation du raisonnement multimodal avec l'ajustement des instructions à grande échelle

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

December 6, 2024
Auteurs: Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue
cs.AI

Résumé

Les modèles de langage multimodaux à grande échelle (MLLM) open-source ont montré un potentiel significatif dans un large éventail de tâches multimodales. Cependant, leurs capacités de raisonnement restent limitées par les ensembles de données d'accord d'instructions existants, qui ont été principalement réutilisés à partir d'ensembles de données académiques tels que VQA, AI2D et ChartQA. Ces ensembles de données ciblent des tâches simplistes et ne fournissent que des réponses au niveau de la phrase sans aucune justification intermédiaire. Pour relever ces défis, nous introduisons une méthode évolutive et rentable pour construire un ensemble de données d'accord d'instructions multimodal à grande échelle avec des justifications intermédiaires riches conçues pour susciter le raisonnement CoT. En n'utilisant que des modèles ouverts, nous créons un ensemble de données contenant 12 millions de paires d'instructions-réponses pour couvrir des tâches diverses et intensives en raisonnement avec des justifications détaillées et fidèles. Les expériences montrent que l'entraînement des MLLM sur cet ensemble de données améliore significativement les capacités de raisonnement, atteignant des performances de pointe sur des référentiels tels que MathVerse (+8,1 %), MMMU-Pro (+7 %) et MuirBench (+13,3 %). De plus, le modèle montre des améliorations notables allant jusqu'à 4 % sur des référentiels non basés sur le raisonnement. Des études d'ablation mettent en évidence l'importance des composants clés, tels que la réécriture et l'auto-filtrage, dans le processus de construction de l'ensemble de données.
English
Open-source multimodal large language models (MLLMs) have shown significant potential in a broad range of multimodal tasks. However, their reasoning capabilities remain constrained by existing instruction-tuning datasets, which were predominately repurposed from academic datasets such as VQA, AI2D, and ChartQA. These datasets target simplistic tasks, and only provide phrase-level answers without any intermediate rationales. To address these challenges, we introduce a scalable and cost-effective method to construct a large-scale multimodal instruction-tuning dataset with rich intermediate rationales designed to elicit CoT reasoning. Using only open models, we create a dataset containing 12M instruction-response pairs to cover diverse, reasoning-intensive tasks with detailed and faithful rationales. Experiments demonstrate that training MLLMs on this dataset significantly improves reasoning capabilities, achieving state-of-the-art performance on benchmarks such as MathVerse (+8.1%), MMMU-Pro (+7%), and MuirBench (+13.3%). Additionally, the model demonstrates notable improvements of up to 4% on non-reasoning-based benchmarks. Ablation studies further highlight the importance of key components, such as rewriting and self-filtering, in the dataset construction process.

Summary

AI-Generated Summary

PDF482December 9, 2024