ChatPaper.aiChatPaper

MM-IFEngine: В направлении мультимодального следования инструкциям

MM-IFEngine: Towards Multimodal Instruction Following

April 10, 2025
Авторы: Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

Аннотация

Способность следовать инструкциям (Instruction Following, IF) измеряет, насколько хорошо мультимодальные большие языковые модели (Multi-modal Large Language Models, MLLMs) понимают, что именно им говорят пользователи, и правильно ли они выполняют эти инструкции. Существующие данные для обучения следованию мультимодальным инструкциям ограничены, тестовые наборы просты и содержат атомарные инструкции, а стратегии оценки недостаточно точны для задач, требующих строгих ограничений на выходные данные. Для решения этой проблемы мы представляем MM-IFEngine — эффективный конвейер для генерации высококачественных пар "изображение-инструкция". Наш конвейер MM-IFEngine создает масштабные, разнообразные и качественные данные для обучения MM-IFInstruct-23k, которые подходят для контролируемой тонкой настройки (Supervised Fine-Tuning, SFT), а также расширяются до MM-IFDPO-23k для оптимизации прямых предпочтений (Direct Preference Optimization, DPO). Мы также представляем MM-IFEval — сложный и разнообразный бенчмарк для оценки следованию мультимодальным инструкциям, который включает (1) ограничения на уровне композиции для выходных ответов и ограничения на уровне восприятия, связанные с входными изображениями, и (2) комплексный конвейер оценки, включающий как правило-ориентированную проверку, так и модель-судию. Мы проводим эксперименты с SFT и DPO и демонстрируем, что тонкая настройка MLLMs на данных MM-IFInstruct-23k и MM-IFDPO-23k приводит к значительному улучшению результатов на различных бенчмарках IF, таких как MM-IFEval (+10,2%), MIA (+7,6%) и IFEval (+12,3%). Полные данные и код для оценки будут опубликованы на https://github.com/SYuan03/MM-IFEngine.
English
The Instruction Following (IF) ability measures how well Multi-modal Large Language Models (MLLMs) understand exactly what users are telling them and whether they are doing it right. Existing multimodal instruction following training data is scarce, the benchmarks are simple with atomic instructions, and the evaluation strategies are imprecise for tasks demanding exact output constraints. To address this, we present MM-IFEngine, an effective pipeline to generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for Direct Preference Optimization (DPO). We further introduce MM-IFEval, a challenging and diverse multi-modal instruction-following benchmark that includes (1) both compose-level constraints for output responses and perception-level constraints tied to the input images, and (2) a comprehensive evaluation pipeline incorporating both rule-based assessment and judge model. We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF benchmarks, such as MM-IFEval (+10.2%), MIA (+7.6%), and IFEval (+12.3%). The full data and evaluation code will be released on https://github.com/SYuan03/MM-IFEngine.

Summary

AI-Generated Summary

PDF342April 11, 2025