MM-IFEngine: 멀티모달 명령어 수행을 향하여
MM-IFEngine: Towards Multimodal Instruction Following
April 10, 2025
저자: Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
초록
명령어 수행(Instruction Following, IF) 능력은 다중 모드 대형 언어 모델(Multi-modal Large Language Models, MLLMs)이 사용자가 전달하는 내용을 정확히 이해하고 올바르게 수행하는지를 측정합니다. 기존의 다중 모드 명령어 수행 학습 데이터는 부족하며, 벤치마크는 단순한 원자적 명령어로 구성되어 있고, 정확한 출력 제약이 필요한 작업에 대한 평가 전략은 부정확합니다. 이를 해결하기 위해, 우리는 고품질의 이미지-명령어 쌍을 생성하는 효과적인 파이프라인인 MM-IFEngine을 제시합니다. 우리의 MM-IFEngine 파이프라인은 대규모, 다양성, 고품질의 학습 데이터인 MM-IFInstruct-23k를 생성하며, 이는 지도 미세 조정(Supervised Fine-Tuning, SFT)에 적합하고, 직접 선호 최적화(Direct Preference Optimization, DPO)를 위한 MM-IFDPO-23k로 확장됩니다. 또한, 우리는 도전적이고 다양한 다중 모드 명령어 수행 벤치마크인 MM-IFEval을 소개합니다. 이 벤치마크는 (1) 출력 응답에 대한 구성 수준의 제약과 입력 이미지에 연결된 인지 수준의 제약을 모두 포함하며, (2) 규칙 기반 평가와 판단 모델을 통합한 포괄적인 평가 파이프라인을 포함합니다. 우리는 SFT와 DPO 실험을 수행하고, MM-IFInstruct-23k와 MM-IFDPO-23k로 MLLMs를 미세 조정함으로써 MM-IFEval(+10.2%), MIA(+7.6%), IFEval(+12.3%) 등 다양한 IF 벤치마크에서 상당한 성능 향상을 달성함을 입증합니다. 전체 데이터와 평가 코드는 https://github.com/SYuan03/MM-IFEngine에서 공개될 예정입니다.
English
The Instruction Following (IF) ability measures how well Multi-modal Large
Language Models (MLLMs) understand exactly what users are telling them and
whether they are doing it right. Existing multimodal instruction following
training data is scarce, the benchmarks are simple with atomic instructions,
and the evaluation strategies are imprecise for tasks demanding exact output
constraints. To address this, we present MM-IFEngine, an effective pipeline to
generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields
large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which
is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for
Direct Preference Optimization (DPO). We further introduce MM-IFEval, a
challenging and diverse multi-modal instruction-following benchmark that
includes (1) both compose-level constraints for output responses and
perception-level constraints tied to the input images, and (2) a comprehensive
evaluation pipeline incorporating both rule-based assessment and judge model.
We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on
MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF
benchmarks, such as MM-IFEval (+10.2%), MIA (+7.6%), and IFEval
(+12.3%). The full data and evaluation code will be released on
https://github.com/SYuan03/MM-IFEngine.Summary
AI-Generated Summary