Migician: Het Onthullen van de Magie van Vrije-Vorm Multi-Afbeelding Gronding in Multimodale Grote Taalmodellen
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models
January 10, 2025
Auteurs: You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun
cs.AI
Samenvatting
De recente vooruitgang van Multimodale Grote Taalmodellen (MLLM's) heeft aanzienlijk bijgedragen aan hun gedetailleerde waarneming van enkele afbeeldingen en algemeen begrip over meerdere afbeeldingen. Echter, bestaande MLLM's ondervinden nog steeds uitdagingen bij het bereiken van nauwkeurige verankering in complexe multi-afbeeldingsscenario's. Om dit aan te pakken, verkennen we eerst een Chain-of-Thought (CoT) framework dat enkele-afbeelding verankering integreert met multi-afbeelding begrip. Hoewel gedeeltelijk effectief, blijft het instabiel en worstelt het om abstracte visuele informatie vast te leggen vanwege zijn niet-end-to-end karakter. Daarom introduceren we Migician, het eerste multi-afbeelding verankeringsmodel dat in staat is tot het uitvoeren van vrije en nauwkeurige verankering over meerdere afbeeldingen. Om dit te ondersteunen, presenteren we het MGrounding-630k dataset, dat gegevens omvat voor verschillende multi-afbeelding verankerings taken afgeleid van bestaande datasets, samen met nieuw gegenereerde vrije-vorm verankerings instructie-volg gegevens. Bovendien stellen we MIG-Bench voor, een uitgebreide benchmark specifiek ontworpen voor het evalueren van multi-afbeelding verankeringsmogelijkheden. Experimentele resultaten tonen aan dat ons model aanzienlijk superieure multi-afbeelding verankeringsmogelijkheden behaalt, de beste bestaande MLLM's overtreft met 21.61% en zelfs veel grotere 70B modellen overtreft. Onze code, model, dataset en benchmark zijn volledig open-source.
English
The recent advancement of Multimodal Large Language Models (MLLMs) has
significantly improved their fine-grained perception of single images and
general comprehension across multiple images. However, existing MLLMs still
face challenges in achieving precise grounding in complex multi-image
scenarios. To address this, we first explore a Chain-of-Thought (CoT) framework
that integrates single-image grounding with multi-image comprehension. While
partially effective, it remains unstable and struggles to capture abstract
visual information due to its non-end-to-end nature. Therefore, we introduce
Migician, the first multi-image grounding model capable of performing free-form
and accurate grounding across multiple images. To support this, we present the
MGrounding-630k dataset, which comprises data for several multi-image grounding
tasks derived from existing datasets, along with newly generated free-form
grounding instruction-following data. Furthermore, we propose MIG-Bench, a
comprehensive benchmark specifically designed for evaluating multi-image
grounding capabilities. Experimental results demonstrate that our model
achieves significantly superior multi-image grounding capabilities,
outperforming the best existing MLLMs by 21.61% and even surpassing much larger
70B models. Our code, model, dataset, and benchmark are fully open-sourced.