ChatPaper.aiChatPaper

Migician: Revelando la Magia de la Fundamentación de Múltiples Imágenes en Formato Libre en Modelos de Lenguaje Multimodales de Gran Escala

Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

January 10, 2025
Autores: You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun
cs.AI

Resumen

El reciente avance de los Modelos de Lenguaje Multimodal Grande (MLLMs) ha mejorado significativamente su percepción detallada de imágenes individuales y comprensión general a través de múltiples imágenes. Sin embargo, los MLLMs existentes aún enfrentan desafíos para lograr un anclaje preciso en escenarios complejos de múltiples imágenes. Para abordar esto, primero exploramos un marco de Cadena de Pensamiento (CoT) que integra el anclaje de imágenes individuales con la comprensión de múltiples imágenes. Aunque parcialmente efectivo, sigue siendo inestable y tiene dificultades para capturar información visual abstracta debido a su naturaleza no de extremo a extremo. Por lo tanto, presentamos Migician, el primer modelo de anclaje de múltiples imágenes capaz de realizar anclajes libres y precisos a través de múltiples imágenes. Para respaldar esto, presentamos el conjunto de datos MGrounding-630k, que comprende datos para varias tareas de anclaje de múltiples imágenes derivadas de conjuntos de datos existentes, junto con datos recién generados de seguimiento de instrucciones de anclaje libre. Además, proponemos MIG-Bench, un banco de pruebas integral diseñado específicamente para evaluar las capacidades de anclaje de múltiples imágenes. Los resultados experimentales demuestran que nuestro modelo logra capacidades de anclaje de múltiples imágenes significativamente superiores, superando a los mejores MLLMs existentes en un 21.61% e incluso superando a modelos mucho más grandes de 70B. Nuestro código, modelo, conjunto de datos y banco de pruebas están completamente disponibles en código abierto.
English
The recent advancement of Multimodal Large Language Models (MLLMs) has significantly improved their fine-grained perception of single images and general comprehension across multiple images. However, existing MLLMs still face challenges in achieving precise grounding in complex multi-image scenarios. To address this, we first explore a Chain-of-Thought (CoT) framework that integrates single-image grounding with multi-image comprehension. While partially effective, it remains unstable and struggles to capture abstract visual information due to its non-end-to-end nature. Therefore, we introduce Migician, the first multi-image grounding model capable of performing free-form and accurate grounding across multiple images. To support this, we present the MGrounding-630k dataset, which comprises data for several multi-image grounding tasks derived from existing datasets, along with newly generated free-form grounding instruction-following data. Furthermore, we propose MIG-Bench, a comprehensive benchmark specifically designed for evaluating multi-image grounding capabilities. Experimental results demonstrate that our model achieves significantly superior multi-image grounding capabilities, outperforming the best existing MLLMs by 21.61% and even surpassing much larger 70B models. Our code, model, dataset, and benchmark are fully open-sourced.

Summary

AI-Generated Summary

PDF302January 14, 2025