Migician : Révéler la Magie de l'Ancrage Multi-Image Libre dans les Grands Modèles de Langage Multimodaux
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models
January 10, 2025
Auteurs: You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun
cs.AI
Résumé
Les récents progrès des Modèles de Langage Multimodaux à Grande Échelle (MLLM) ont considérablement amélioré leur perception fine des images individuelles et leur compréhension générale à travers plusieurs images. Cependant, les MLLM existants rencontrent encore des défis pour parvenir à un ancrage précis dans des scénarios complexes impliquant plusieurs images. Pour remédier à cela, nous explorons d'abord un cadre de Chaîne de Pensée (CoT) qui intègre l'ancrage des images individuelles avec la compréhension des images multiples. Bien que partiellement efficace, il reste instable et peine à capturer des informations visuelles abstraites en raison de sa nature non bout-à-bout. Par conséquent, nous introduisons Migician, le premier modèle d'ancrage multi-images capable d'effectuer un ancrage libre et précis à travers plusieurs images. Pour soutenir cela, nous présentons l'ensemble de données MGrounding-630k, qui comprend des données pour plusieurs tâches d'ancrage multi-images dérivées d'ensembles de données existants, ainsi que des données d'instructions d'ancrage libre nouvellement générées. De plus, nous proposons MIG-Bench, une référence complète spécifiquement conçue pour évaluer les capacités d'ancrage multi-images. Les résultats expérimentaux montrent que notre modèle atteint des capacités d'ancrage multi-images nettement supérieures, surpassant les meilleurs MLLM existants de 21,61% et dépassant même des modèles beaucoup plus grands de 70B. Notre code, modèle, ensemble de données et référentiel sont entièrement open source.
English
The recent advancement of Multimodal Large Language Models (MLLMs) has
significantly improved their fine-grained perception of single images and
general comprehension across multiple images. However, existing MLLMs still
face challenges in achieving precise grounding in complex multi-image
scenarios. To address this, we first explore a Chain-of-Thought (CoT) framework
that integrates single-image grounding with multi-image comprehension. While
partially effective, it remains unstable and struggles to capture abstract
visual information due to its non-end-to-end nature. Therefore, we introduce
Migician, the first multi-image grounding model capable of performing free-form
and accurate grounding across multiple images. To support this, we present the
MGrounding-630k dataset, which comprises data for several multi-image grounding
tasks derived from existing datasets, along with newly generated free-form
grounding instruction-following data. Furthermore, we propose MIG-Bench, a
comprehensive benchmark specifically designed for evaluating multi-image
grounding capabilities. Experimental results demonstrate that our model
achieves significantly superior multi-image grounding capabilities,
outperforming the best existing MLLMs by 21.61% and even surpassing much larger
70B models. Our code, model, dataset, and benchmark are fully open-sourced.Summary
AI-Generated Summary