Migician: Раскрывая магию свободной многокартинной привязки в мультимодальных крупномасштабных языковых моделях
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models
January 10, 2025
Авторы: You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun
cs.AI
Аннотация
Недавние достижения в области мультимодальных моделей больших языков (MLLM) значительно улучшили их детализированное восприятие одиночных изображений и общее понимание по всем изображениям. Однако существующие MLLM по-прежнему сталкиваются с проблемами в достижении точной привязки в сложных мультиизображенческих сценариях. Для решения этой проблемы мы в первую очередь исследуем структуру Chain-of-Thought (CoT), которая интегрирует привязку к одиночному изображению с пониманием нескольких изображений. Хотя это частично эффективно, она остается нестабильной и испытывает затруднения в захвате абстрактной визуальной информации из-за своей неэнд-ту-энд природы. Поэтому мы представляем Migician, первую модель привязки к нескольким изображениям, способную выполнять свободную и точную привязку через несколько изображений. Для поддержки этого мы представляем набор данных MGrounding-630k, который включает данные для нескольких задач привязки к нескольким изображениям, полученные из существующих наборов данных, а также новые данные для следования инструкциям свободной привязки. Кроме того, мы предлагаем MIG-Bench, комплексный бенчмарк, специально разработанный для оценки возможностей привязки к нескольким изображениям. Экспериментальные результаты показывают, что наша модель достигает значительно более высоких возможностей привязки к нескольким изображениям, превосходя лучшие существующие MLLM на 21,61% и даже превосходя гораздо более крупные модели объемом 70 млрд. Наш код, модель, набор данных и бенчмарк полностью открыты для использования.
English
The recent advancement of Multimodal Large Language Models (MLLMs) has
significantly improved their fine-grained perception of single images and
general comprehension across multiple images. However, existing MLLMs still
face challenges in achieving precise grounding in complex multi-image
scenarios. To address this, we first explore a Chain-of-Thought (CoT) framework
that integrates single-image grounding with multi-image comprehension. While
partially effective, it remains unstable and struggles to capture abstract
visual information due to its non-end-to-end nature. Therefore, we introduce
Migician, the first multi-image grounding model capable of performing free-form
and accurate grounding across multiple images. To support this, we present the
MGrounding-630k dataset, which comprises data for several multi-image grounding
tasks derived from existing datasets, along with newly generated free-form
grounding instruction-following data. Furthermore, we propose MIG-Bench, a
comprehensive benchmark specifically designed for evaluating multi-image
grounding capabilities. Experimental results demonstrate that our model
achieves significantly superior multi-image grounding capabilities,
outperforming the best existing MLLMs by 21.61% and even surpassing much larger
70B models. Our code, model, dataset, and benchmark are fully open-sourced.Summary
AI-Generated Summary