ChatPaper.aiChatPaper

MM-IFEngine : Vers un suivi d'instructions multimodal

MM-IFEngine: Towards Multimodal Instruction Following

April 10, 2025
Auteurs: Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

Résumé

La capacité de Suivi d'Instructions (Instruction Following, IF) mesure à quel point les Modèles de Langage Multimodaux de Grande Taille (Multi-modal Large Language Models, MLLMs) comprennent exactement ce que les utilisateurs leur disent et s'ils exécutent correctement ces instructions. Les données d'entraînement existantes pour le suivi d'instructions multimodales sont rares, les benchmarks sont simples avec des instructions atomiques, et les stratégies d'évaluation sont imprécises pour les tâches exigeant des contraintes de sortie exactes. Pour remédier à cela, nous présentons MM-IFEngine, un pipeline efficace pour générer des paires image-instruction de haute qualité. Notre pipeline MM-IFEngine produit des données d'entraînement à grande échelle, diversifiées et de haute qualité, MM-IFInstruct-23k, adaptées au Réglage Fin Supervisé (Supervised Fine-Tuning, SFT) et étendues en MM-IFDPO-23k pour l'Optimisation Directe des Préférences (Direct Preference Optimization, DPO). Nous introduisons également MM-IFEval, un benchmark de suivi d'instructions multimodal à la fois exigeant et diversifié, qui inclut (1) des contraintes au niveau de la composition pour les réponses de sortie et des contraintes au niveau de la perception liées aux images d'entrée, et (2) un pipeline d'évaluation complet intégrant à la fois une évaluation basée sur des règles et un modèle de jugement. Nous menons des expériences de SFT et DPO et démontrons que le réglage fin des MLLMs sur MM-IFInstruct-23k et MM-IFDPO-23k permet d'obtenir des gains significatifs sur divers benchmarks IF, tels que MM-IFEval (+10,2 %), MIA (+7,6 %) et IFEval (+12,3 %). Les données complètes et le code d'évaluation seront publiés sur https://github.com/SYuan03/MM-IFEngine.
English
The Instruction Following (IF) ability measures how well Multi-modal Large Language Models (MLLMs) understand exactly what users are telling them and whether they are doing it right. Existing multimodal instruction following training data is scarce, the benchmarks are simple with atomic instructions, and the evaluation strategies are imprecise for tasks demanding exact output constraints. To address this, we present MM-IFEngine, an effective pipeline to generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for Direct Preference Optimization (DPO). We further introduce MM-IFEval, a challenging and diverse multi-modal instruction-following benchmark that includes (1) both compose-level constraints for output responses and perception-level constraints tied to the input images, and (2) a comprehensive evaluation pipeline incorporating both rule-based assessment and judge model. We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF benchmarks, such as MM-IFEval (+10.2%), MIA (+7.6%), and IFEval (+12.3%). The full data and evaluation code will be released on https://github.com/SYuan03/MM-IFEngine.

Summary

AI-Generated Summary

PDF342April 11, 2025