ChatPaper.aiChatPaper

Migician: Раскрывая магию свободной многокартинной привязки в мультимодальных крупномасштабных языковых моделях

Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

January 10, 2025
Авторы: You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun
cs.AI

Аннотация

Недавние достижения в области мультимодальных моделей больших языков (MLLM) значительно улучшили их детализированное восприятие одиночных изображений и общее понимание по всем изображениям. Однако существующие MLLM по-прежнему сталкиваются с проблемами в достижении точной привязки в сложных мультиизображенческих сценариях. Для решения этой проблемы мы в первую очередь исследуем структуру Chain-of-Thought (CoT), которая интегрирует привязку к одиночному изображению с пониманием нескольких изображений. Хотя это частично эффективно, она остается нестабильной и испытывает затруднения в захвате абстрактной визуальной информации из-за своей неэнд-ту-энд природы. Поэтому мы представляем Migician, первую модель привязки к нескольким изображениям, способную выполнять свободную и точную привязку через несколько изображений. Для поддержки этого мы представляем набор данных MGrounding-630k, который включает данные для нескольких задач привязки к нескольким изображениям, полученные из существующих наборов данных, а также новые данные для следования инструкциям свободной привязки. Кроме того, мы предлагаем MIG-Bench, комплексный бенчмарк, специально разработанный для оценки возможностей привязки к нескольким изображениям. Экспериментальные результаты показывают, что наша модель достигает значительно более высоких возможностей привязки к нескольким изображениям, превосходя лучшие существующие MLLM на 21,61% и даже превосходя гораздо более крупные модели объемом 70 млрд. Наш код, модель, набор данных и бенчмарк полностью открыты для использования.
English
The recent advancement of Multimodal Large Language Models (MLLMs) has significantly improved their fine-grained perception of single images and general comprehension across multiple images. However, existing MLLMs still face challenges in achieving precise grounding in complex multi-image scenarios. To address this, we first explore a Chain-of-Thought (CoT) framework that integrates single-image grounding with multi-image comprehension. While partially effective, it remains unstable and struggles to capture abstract visual information due to its non-end-to-end nature. Therefore, we introduce Migician, the first multi-image grounding model capable of performing free-form and accurate grounding across multiple images. To support this, we present the MGrounding-630k dataset, which comprises data for several multi-image grounding tasks derived from existing datasets, along with newly generated free-form grounding instruction-following data. Furthermore, we propose MIG-Bench, a comprehensive benchmark specifically designed for evaluating multi-image grounding capabilities. Experimental results demonstrate that our model achieves significantly superior multi-image grounding capabilities, outperforming the best existing MLLMs by 21.61% and even surpassing much larger 70B models. Our code, model, dataset, and benchmark are fully open-sourced.

Summary

AI-Generated Summary

PDF302January 14, 2025