LEGO: Modelo de Fundamentación Multimodal Mejorado por Lenguaje
LEGO:Language Enhanced Multi-modal Grounding Model
January 11, 2024
Autores: Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala han demostrado un rendimiento impresionante en diversas tareas y modalidades. Sin embargo, los modelos multimodales existentes se centran principalmente en capturar información global dentro de cada modalidad, descuidando la importancia de percibir información local entre modalidades. Como consecuencia, estos modelos carecen de la capacidad para comprender efectivamente los detalles más finos de los datos de entrada, lo que limita su rendimiento en tareas que requieren una comprensión más matizada. Para abordar esta limitación, existe una necesidad imperiosa de desarrollar modelos que permitan una comprensión detallada a través de múltiples modalidades, mejorando así su aplicabilidad en una amplia gama de tareas. En este artículo, proponemos LEGO, un modelo de anclaje multimodal mejorado con lenguaje. Más allá de capturar información global como otros modelos multimodales, nuestro modelo propuesto sobresale en tareas que exigen una comprensión detallada de la información local dentro de la entrada. Demuestra una identificación y localización precisa de regiones específicas en imágenes o momentos en videos. Para lograr este objetivo, diseñamos una pipeline de construcción de datos diversificada, resultando en un conjunto de datos multimodal y multigranularidad para el entrenamiento del modelo. El código, el conjunto de datos y la demostración de nuestro modelo se pueden encontrar en https://github.com/lzw-lzw/LEGO.
English
Multi-modal large language models have demonstrated impressive performance
across various tasks in different modalities. However, existing multi-modal
models primarily emphasize capturing global information within each modality
while neglecting the importance of perceiving local information across
modalities. Consequently, these models lack the ability to effectively
understand the fine-grained details of input data, limiting their performance
in tasks that require a more nuanced understanding. To address this limitation,
there is a compelling need to develop models that enable fine-grained
understanding across multiple modalities, thereby enhancing their applicability
to a wide range of tasks. In this paper, we propose LEGO, a language enhanced
multi-modal grounding model. Beyond capturing global information like other
multi-modal models, our proposed model excels at tasks demanding a detailed
understanding of local information within the input. It demonstrates precise
identification and localization of specific regions in images or moments in
videos. To achieve this objective, we design a diversified dataset construction
pipeline, resulting in a multi-modal, multi-granularity dataset for model
training. The code, dataset, and demo of our model can be found at https:
//github.com/lzw-lzw/LEGO.