ChatPaper.aiChatPaper

MM-IFEngine: Op weg naar Multimodale Instructievolging

MM-IFEngine: Towards Multimodal Instruction Following

April 10, 2025
Auteurs: Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

Samenvatting

De Instructievolgende (IF) vaardigheid meet hoe goed Multi-modale Grote Taalmodellen (MLLMs) precies begrijpen wat gebruikers hen vertellen en of ze het correct uitvoeren. Bestaande multimodale trainingsdata voor instructievolgen is schaars, de benchmarks zijn eenvoudig met atomische instructies, en de evaluatiestrategieën zijn onnauwkeurig voor taken die exacte uitvoerbeperkingen vereisen. Om dit aan te pakken, presenteren we MM-IFEngine, een effectieve pijplijn om hoogwaardige afbeelding-instructieparen te genereren. Onze MM-IFEngine pijplijn levert grootschalige, diverse en hoogwaardige trainingsdata MM-IFInstruct-23k op, die geschikt is voor Supervised Fine-Tuning (SFT) en uitgebreid wordt als MM-IFDPO-23k voor Direct Preference Optimization (DPO). We introduceren verder MM-IFEval, een uitdagende en diverse multimodale instructievolgende benchmark die (1) zowel compose-level beperkingen voor uitvoerresponsen als perceptie-level beperkingen gekoppeld aan de invoerafbeeldingen omvat, en (2) een uitgebreide evaluatiepijplijn die zowel regelgebaseerde beoordeling als een beoordelingsmodel incorporeert. We voeren SFT en DPO experimenten uit en tonen aan dat het finetunen van MLLMs op MM-IFInstruct-23k en MM-IFDPO-23k aanzienlijke verbeteringen oplevert op verschillende IF benchmarks, zoals MM-IFEval (+10,2%), MIA (+7,6%) en IFEval (+12,3%). De volledige data en evaluatiecode zullen worden vrijgegeven op https://github.com/SYuan03/MM-IFEngine.
English
The Instruction Following (IF) ability measures how well Multi-modal Large Language Models (MLLMs) understand exactly what users are telling them and whether they are doing it right. Existing multimodal instruction following training data is scarce, the benchmarks are simple with atomic instructions, and the evaluation strategies are imprecise for tasks demanding exact output constraints. To address this, we present MM-IFEngine, an effective pipeline to generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for Direct Preference Optimization (DPO). We further introduce MM-IFEval, a challenging and diverse multi-modal instruction-following benchmark that includes (1) both compose-level constraints for output responses and perception-level constraints tied to the input images, and (2) a comprehensive evaluation pipeline incorporating both rule-based assessment and judge model. We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF benchmarks, such as MM-IFEval (+10.2%), MIA (+7.6%), and IFEval (+12.3%). The full data and evaluation code will be released on https://github.com/SYuan03/MM-IFEngine.
PDF342April 11, 2025