ChatPaper.aiChatPaper

MM-IFEngine: Rumo à Seguimento de Instruções Multimodal

MM-IFEngine: Towards Multimodal Instruction Following

April 10, 2025
Autores: Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

Resumo

A capacidade de Seguir Instruções (SI) mede o quão bem os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) entendem exatamente o que os usuários estão dizendo e se estão fazendo isso corretamente. Os dados de treinamento existentes para seguir instruções multimodais são escassos, os benchmarks são simples com instruções atômicas, e as estratégias de avaliação são imprecisas para tarefas que exigem restrições exatas de saída. Para resolver isso, apresentamos o MM-IFEngine, um pipeline eficaz para gerar pares imagem-instrução de alta qualidade. Nosso pipeline MM-IFEngine produz dados de treinamento em grande escala, diversificados e de alta qualidade, o MM-IFInstruct-23k, que é adequado para Ajuste Fino Supervisionado (SFT) e estendido como MM-IFDPO-23k para Otimização de Preferência Direta (DPO). Além disso, introduzimos o MM-IFEval, um benchmark desafiador e diversificado para seguir instruções multimodais que inclui (1) restrições tanto em nível de composição para respostas de saída quanto em nível de percepção vinculadas às imagens de entrada, e (2) um pipeline de avaliação abrangente que incorpora tanto avaliação baseada em regras quanto um modelo de julgamento. Realizamos experimentos de SFT e DPO e demonstramos que o ajuste fino de MLLMs no MM-IFInstruct-23k e MM-IFDPO-23k alcança ganhos notáveis em vários benchmarks de SI, como MM-IFEval (+10,2%), MIA (+7,6%) e IFEval (+12,3%). Os dados completos e o código de avaliação serão disponibilizados em https://github.com/SYuan03/MM-IFEngine.
English
The Instruction Following (IF) ability measures how well Multi-modal Large Language Models (MLLMs) understand exactly what users are telling them and whether they are doing it right. Existing multimodal instruction following training data is scarce, the benchmarks are simple with atomic instructions, and the evaluation strategies are imprecise for tasks demanding exact output constraints. To address this, we present MM-IFEngine, an effective pipeline to generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for Direct Preference Optimization (DPO). We further introduce MM-IFEval, a challenging and diverse multi-modal instruction-following benchmark that includes (1) both compose-level constraints for output responses and perception-level constraints tied to the input images, and (2) a comprehensive evaluation pipeline incorporating both rule-based assessment and judge model. We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF benchmarks, such as MM-IFEval (+10.2%), MIA (+7.6%), and IFEval (+12.3%). The full data and evaluation code will be released on https://github.com/SYuan03/MM-IFEngine.

Summary

AI-Generated Summary

PDF342April 11, 2025