MM-IFEngine:マルチモーダル命令追従に向けて
MM-IFEngine: Towards Multimodal Instruction Following
April 10, 2025
著者: Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
要旨
命令追従(Instruction Following, IF)能力は、マルチモーダル大規模言語モデル(Multi-modal Large Language Models, MLLMs)がユーザーの指示を正確に理解し、適切に実行する能力を測定します。既存のマルチモーダル命令追従トレーニングデータは不足しており、ベンチマークは単純な原子命令に限定され、正確な出力制約を要求するタスクに対する評価戦略も不十分です。この問題に対処するため、我々は高品質な画像-命令ペアを生成する効果的なパイプラインであるMM-IFEngineを提案します。MM-IFEngineパイプラインは、大規模で多様かつ高品質なトレーニングデータMM-IFInstruct-23kを生成し、これは教師あり微調整(Supervised Fine-Tuning, SFT)に適しており、さらにDirect Preference Optimization(DPO)用に拡張されたMM-IFDPO-23kとしても利用可能です。さらに、我々はMM-IFEvalを導入します。これは、挑戦的で多様なマルチモーダル命令追従ベンチマークであり、(1) 出力応答に対する構成レベルの制約と入力画像に紐づく知覚レベルの制約の両方を含み、(2) ルールベースの評価と判定モデルを組み込んだ包括的な評価パイプラインを備えています。我々はSFTとDPOの実験を行い、MM-IFInstruct-23kとMM-IFDPO-23kでMLLMsを微調整することで、MM-IFEval(+10.2%)、MIA(+7.6%)、IFEval(+12.3%)など、さまざまなIFベンチマークで顕著な向上を達成することを実証しました。完全なデータと評価コードはhttps://github.com/SYuan03/MM-IFEngineで公開されます。
English
The Instruction Following (IF) ability measures how well Multi-modal Large
Language Models (MLLMs) understand exactly what users are telling them and
whether they are doing it right. Existing multimodal instruction following
training data is scarce, the benchmarks are simple with atomic instructions,
and the evaluation strategies are imprecise for tasks demanding exact output
constraints. To address this, we present MM-IFEngine, an effective pipeline to
generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields
large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which
is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for
Direct Preference Optimization (DPO). We further introduce MM-IFEval, a
challenging and diverse multi-modal instruction-following benchmark that
includes (1) both compose-level constraints for output responses and
perception-level constraints tied to the input images, and (2) a comprehensive
evaluation pipeline incorporating both rule-based assessment and judge model.
We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on
MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF
benchmarks, such as MM-IFEval (+10.2%), MIA (+7.6%), and IFEval
(+12.3%). The full data and evaluation code will be released on
https://github.com/SYuan03/MM-IFEngine.Summary
AI-Generated Summary