MAmmoTH-VL: Herausforderung der multimodalen Argumentation durch Anpassung von Anweisungen im großen Maßstab
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale
December 6, 2024
Autoren: Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue
cs.AI
Zusammenfassung
Open-Source Multimodale Large Language Models (MLLMs) haben ein signifikantes Potenzial in einer breiten Palette von multimodalen Aufgaben gezeigt. Ihre Fähigkeiten zur Argumentation bleiben jedoch durch bestehende Anleitung-Feinabstimmungsdatensätze eingeschränkt, die hauptsächlich aus akademischen Datensätzen wie VQA, AI2D und ChartQA umfunktioniert wurden. Diese Datensätze zielen auf einfache Aufgaben ab und bieten nur phrasenweise Antworten ohne Zwischenbegründungen. Um diese Herausforderungen anzugehen, führen wir eine skalierbare und kostengünstige Methode ein, um einen groß angelegten multimodalen Anleitung-Feinabstimmungsdatensatz mit reichen Zwischenbegründungen zu erstellen, die darauf abzielen, CoT-Argumentation hervorzurufen. Unter Verwendung nur von Open-Modellen erstellen wir einen Datensatz, der 12M Anleitung-Antwort-Paare enthält, um diverse, argumentationsintensive Aufgaben mit detaillierten und treuen Begründungen abzudecken. Experimente zeigen, dass das Training von MLLMs auf diesem Datensatz die Argumentationsfähigkeiten signifikant verbessert und Spitzenleistungen bei Benchmarks wie MathVerse (+8,1%), MMMU-Pro (+7%) und MuirBench (+13,3%) erreicht. Darüber hinaus zeigt das Modell bemerkenswerte Verbesserungen von bis zu 4% bei Benchmarks, die nicht auf Argumentation basieren. Ablationsstudien heben weiterhin die Bedeutung von Schlüsselkomponenten wie Umschreiben und Selbstfilterung im Datensatzaufbauprozess hervor.
English
Open-source multimodal large language models (MLLMs) have shown significant
potential in a broad range of multimodal tasks. However, their reasoning
capabilities remain constrained by existing instruction-tuning datasets, which
were predominately repurposed from academic datasets such as VQA, AI2D, and
ChartQA. These datasets target simplistic tasks, and only provide phrase-level
answers without any intermediate rationales. To address these challenges, we
introduce a scalable and cost-effective method to construct a large-scale
multimodal instruction-tuning dataset with rich intermediate rationales
designed to elicit CoT reasoning. Using only open models, we create a dataset
containing 12M instruction-response pairs to cover diverse, reasoning-intensive
tasks with detailed and faithful rationales. Experiments demonstrate that
training MLLMs on this dataset significantly improves reasoning capabilities,
achieving state-of-the-art performance on benchmarks such as MathVerse (+8.1%),
MMMU-Pro (+7%), and MuirBench (+13.3%). Additionally, the model demonstrates
notable improvements of up to 4% on non-reasoning-based benchmarks. Ablation
studies further highlight the importance of key components, such as rewriting
and self-filtering, in the dataset construction process.Summary
AI-Generated Summary