LEGO: Sprachgestütztes multimodales Verankerungsmodell

papers.abstract

Multimodale Large Language Models haben beeindruckende Leistungen bei verschiedenen Aufgaben in unterschiedlichen Modalitäten gezeigt. Allerdings konzentrieren sich bestehende multimodale Modelle hauptsächlich darauf, globale Informationen innerhalb jeder Modalität zu erfassen, während sie die Bedeutung der Wahrnehmung lokaler Informationen über Modalitäten hinweg vernachlässigen. Folglich fehlt diesen Modellen die Fähigkeit, die feinkörnigen Details der Eingabedaten effektiv zu verstehen, was ihre Leistung bei Aufgaben einschränkt, die ein differenzierteres Verständnis erfordern. Um diese Einschränkung zu überwinden, besteht ein dringender Bedarf an der Entwicklung von Modellen, die ein feinkörniges Verständnis über mehrere Modalitäten hinweg ermöglichen und damit ihre Anwendbarkeit auf eine breite Palette von Aufgaben verbessern. In diesem Artikel schlagen wir LEGO vor, ein sprachgestütztes multimodales Grounding-Modell. Über die Erfassung globaler Informationen hinaus, wie es andere multimodale Modelle tun, zeichnet sich unser vorgeschlagenes Modell durch Aufgaben aus, die ein detailliertes Verständnis lokaler Informationen innerhalb der Eingabe erfordern. Es zeigt eine präzise Identifikation und Lokalisierung spezifischer Regionen in Bildern oder Momenten in Videos. Um dieses Ziel zu erreichen, haben wir eine diversifizierte Pipeline zur Datensatzkonstruktion entwickelt, die zu einem multimodalen, mehrgranularen Datensatz für das Modelltraining führt. Der Code, der Datensatz und die Demo unseres Modells sind unter https://github.com/lzw-lzw/LEGO zu finden.

English

Multi-modal large language models have demonstrated impressive performance across various tasks in different modalities. However, existing multi-modal models primarily emphasize capturing global information within each modality while neglecting the importance of perceiving local information across modalities. Consequently, these models lack the ability to effectively understand the fine-grained details of input data, limiting their performance in tasks that require a more nuanced understanding. To address this limitation, there is a compelling need to develop models that enable fine-grained understanding across multiple modalities, thereby enhancing their applicability to a wide range of tasks. In this paper, we propose LEGO, a language enhanced multi-modal grounding model. Beyond capturing global information like other multi-modal models, our proposed model excels at tasks demanding a detailed understanding of local information within the input. It demonstrates precise identification and localization of specific regions in images or moments in videos. To achieve this objective, we design a diversified dataset construction pipeline, resulting in a multi-modal, multi-granularity dataset for model training. The code, dataset, and demo of our model can be found at https: //github.com/lzw-lzw/LEGO.

LEGO: Sprachgestütztes multimodales Verankerungsmodell

LEGO:Language Enhanced Multi-modal Grounding Model

papers.abstract

Support