ChatPaper.aiChatPaper

MM-IFEngine: Hacia el Seguimiento de Instrucciones Multimodales

MM-IFEngine: Towards Multimodal Instruction Following

April 10, 2025
Autores: Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

Resumen

La capacidad de Seguimiento de Instrucciones (SI) mide qué tan bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) comprenden exactamente lo que los usuarios les indican y si lo están haciendo correctamente. Los datos de entrenamiento existentes para el seguimiento de instrucciones multimodales son escasos, los puntos de referencia son simples con instrucciones atómicas, y las estrategias de evaluación son imprecisas para tareas que requieren restricciones exactas en la salida. Para abordar esto, presentamos MM-IFEngine, una canalización efectiva para generar pares de imagen-instrucción de alta calidad. Nuestra canalización MM-IFEngine produce datos de entrenamiento a gran escala, diversos y de alta calidad, MM-IFInstruct-23k, que es adecuado para el Ajuste Fino Supervisado (SFT) y se extiende como MM-IFDPO-23k para la Optimización Directa de Preferencias (DPO). Además, introducimos MM-IFEval, un punto de referencia desafiante y diverso para el seguimiento de instrucciones multimodales que incluye (1) restricciones a nivel de composición para las respuestas de salida y restricciones a nivel de percepción vinculadas a las imágenes de entrada, y (2) una canalización de evaluación integral que incorpora tanto la evaluación basada en reglas como un modelo juez. Realizamos experimentos de SFT y DPO y demostramos que el ajuste fino de MLLMs en MM-IFInstruct-23k y MM-IFDPO-23k logra mejoras notables en varios puntos de referencia de SI, como MM-IFEval (+10.2%), MIA (+7.6%) e IFEval (+12.3%). Los datos completos y el código de evaluación se publicarán en https://github.com/SYuan03/MM-IFEngine.
English
The Instruction Following (IF) ability measures how well Multi-modal Large Language Models (MLLMs) understand exactly what users are telling them and whether they are doing it right. Existing multimodal instruction following training data is scarce, the benchmarks are simple with atomic instructions, and the evaluation strategies are imprecise for tasks demanding exact output constraints. To address this, we present MM-IFEngine, an effective pipeline to generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for Direct Preference Optimization (DPO). We further introduce MM-IFEval, a challenging and diverse multi-modal instruction-following benchmark that includes (1) both compose-level constraints for output responses and perception-level constraints tied to the input images, and (2) a comprehensive evaluation pipeline incorporating both rule-based assessment and judge model. We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF benchmarks, such as MM-IFEval (+10.2%), MIA (+7.6%), and IFEval (+12.3%). The full data and evaluation code will be released on https://github.com/SYuan03/MM-IFEngine.

Summary

AI-Generated Summary

PDF342April 11, 2025