MM-IFEngine: В направлении мультимодального следования инструкциям
MM-IFEngine: Towards Multimodal Instruction Following
April 10, 2025
Авторы: Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Аннотация
Способность следовать инструкциям (Instruction Following, IF) измеряет, насколько хорошо мультимодальные большие языковые модели (Multi-modal Large Language Models, MLLMs) понимают, что именно им говорят пользователи, и правильно ли они выполняют эти инструкции. Существующие данные для обучения следованию мультимодальным инструкциям ограничены, тестовые наборы просты и содержат атомарные инструкции, а стратегии оценки недостаточно точны для задач, требующих строгих ограничений на выходные данные. Для решения этой проблемы мы представляем MM-IFEngine — эффективный конвейер для генерации высококачественных пар "изображение-инструкция". Наш конвейер MM-IFEngine создает масштабные, разнообразные и качественные данные для обучения MM-IFInstruct-23k, которые подходят для контролируемой тонкой настройки (Supervised Fine-Tuning, SFT), а также расширяются до MM-IFDPO-23k для оптимизации прямых предпочтений (Direct Preference Optimization, DPO). Мы также представляем MM-IFEval — сложный и разнообразный бенчмарк для оценки следованию мультимодальным инструкциям, который включает (1) ограничения на уровне композиции для выходных ответов и ограничения на уровне восприятия, связанные с входными изображениями, и (2) комплексный конвейер оценки, включающий как правило-ориентированную проверку, так и модель-судию. Мы проводим эксперименты с SFT и DPO и демонстрируем, что тонкая настройка MLLMs на данных MM-IFInstruct-23k и MM-IFDPO-23k приводит к значительному улучшению результатов на различных бенчмарках IF, таких как MM-IFEval (+10,2%), MIA (+7,6%) и IFEval (+12,3%). Полные данные и код для оценки будут опубликованы на https://github.com/SYuan03/MM-IFEngine.
English
The Instruction Following (IF) ability measures how well Multi-modal Large
Language Models (MLLMs) understand exactly what users are telling them and
whether they are doing it right. Existing multimodal instruction following
training data is scarce, the benchmarks are simple with atomic instructions,
and the evaluation strategies are imprecise for tasks demanding exact output
constraints. To address this, we present MM-IFEngine, an effective pipeline to
generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields
large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which
is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for
Direct Preference Optimization (DPO). We further introduce MM-IFEval, a
challenging and diverse multi-modal instruction-following benchmark that
includes (1) both compose-level constraints for output responses and
perception-level constraints tied to the input images, and (2) a comprehensive
evaluation pipeline incorporating both rule-based assessment and judge model.
We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on
MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF
benchmarks, such as MM-IFEval (+10.2%), MIA (+7.6%), and IFEval
(+12.3%). The full data and evaluation code will be released on
https://github.com/SYuan03/MM-IFEngine.Summary
AI-Generated Summary