ChatPaper.aiChatPaper

MM-IFEngine: Auf dem Weg zu multimodaler Befolgung von Anweisungen

MM-IFEngine: Towards Multimodal Instruction Following

April 10, 2025
Autoren: Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

Zusammenfassung

Die Fähigkeit zur Befolgung von Anweisungen (Instruction Following, IF) misst, wie gut Multimodale Große Sprachmodelle (Multi-modal Large Language Models, MLLMs) genau verstehen, was Benutzer ihnen mitteilen, und ob sie dies korrekt umsetzen. Bisherige multimodale Trainingsdaten zur Befolgung von Anweisungen sind knapp, die Benchmarks sind einfach mit atomaren Anweisungen, und die Bewertungsstrategien sind unpräzise für Aufgaben, die exakte Ausgabebeschränkungen erfordern. Um dies zu beheben, stellen wir MM-IFEngine vor, eine effektive Pipeline zur Generierung hochwertiger Bild-Anweisungs-Paare. Unsere MM-IFEngine-Pipeline liefert umfangreiche, vielfältige und hochwertige Trainingsdaten MM-IFInstruct-23k, die sich für Supervised Fine-Tuning (SFT) eignen und als MM-IFDPO-23k für Direct Preference Optimization (DPO) erweitert werden. Wir führen außerdem MM-IFEval ein, einen anspruchsvollen und vielfältigen multimodalen Benchmark zur Befolgung von Anweisungen, der (1) sowohl zusammengesetzte Beschränkungen für Ausgabeantworten als auch wahrnehmungsbezogene Beschränkungen, die an die Eingabebilder gebunden sind, umfasst, und (2) eine umfassende Bewertungspipeline, die sowohl regelbasierte Bewertungen als auch ein Richtermodell integriert. Wir führen SFT- und DPO-Experimente durch und zeigen, dass das Feinabstimmen von MLLMs auf MM-IFInstruct-23k und MM-IFDPO-23k bemerkenswerte Verbesserungen bei verschiedenen IF-Benchmarks erzielt, wie z.B. MM-IFEval (+10,2 %), MIA (+7,6 %) und IFEval (+12,3 %). Die vollständigen Daten und der Bewertungscode werden auf https://github.com/SYuan03/MM-IFEngine veröffentlicht.
English
The Instruction Following (IF) ability measures how well Multi-modal Large Language Models (MLLMs) understand exactly what users are telling them and whether they are doing it right. Existing multimodal instruction following training data is scarce, the benchmarks are simple with atomic instructions, and the evaluation strategies are imprecise for tasks demanding exact output constraints. To address this, we present MM-IFEngine, an effective pipeline to generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for Direct Preference Optimization (DPO). We further introduce MM-IFEval, a challenging and diverse multi-modal instruction-following benchmark that includes (1) both compose-level constraints for output responses and perception-level constraints tied to the input images, and (2) a comprehensive evaluation pipeline incorporating both rule-based assessment and judge model. We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF benchmarks, such as MM-IFEval (+10.2%), MIA (+7.6%), and IFEval (+12.3%). The full data and evaluation code will be released on https://github.com/SYuan03/MM-IFEngine.

Summary

AI-Generated Summary

PDF342April 11, 2025