Erkundung von mehrkörnigen Konzeptannotationen für multimodale große Sprachmodelle

papers.abstract

Multimodale große Sprachmodelle (MLLMs) zeichnen sich in Vision-Sprach-Aufgaben aus, indem sie ausschließlich auf grobkörnige Konzeptannotationen (z. B. Bildunterschriften) vortrainiert werden. Wir vermuten, dass die Integration feinkörniger Konzeptannotationen (z. B. Objektetiketten und Objektregionen) die Leistung weiter verbessern wird, da sich beide Datengranularitäten in Bezug auf Breite und Tiefe der Konzeptrepräsentation ergänzen. Wir stellen einen neuen Datensatz vor, der Multimodale Multi-Grained Concept-Annotationen (MMGiC) für MLLMs enthält. Bei der Erstellung von MMGiC untersuchen wir die Auswirkungen verschiedener Datensätze auf das multimodale Verständnis und die Generierung. Unsere Analysen zeigen, dass Multi-Grained Concept-Annotationen sich unter unserer strukturierten Vorlage und einem allgemeinen MLLM-Framework integrieren und ergänzen. Wir erforschen und zeigen eindeutig das Potenzial von MMGiC auf, MLLMs dabei zu unterstützen, Konzepte besser zu lokalisieren und zu erlernen, indem Vision und Sprache auf mehreren Granularitätsebenen ausgerichtet werden. Wir validieren unsere Hypothese weiter, indem wir den fairen Vergleich und die effektive Zusammenarbeit zwischen MMGiC und Bild-Untertitel-Daten in 12 multimodalen Verständnis- und Generierungstests untersuchen, z. B. erreichen ihre angemessene Kombination 3,95% bzw. 2,34% absolute Verbesserungen gegenüber alleinigen Bild-Untertitel-Daten bei POPE und SEED-Bench. Code, Daten und Modelle sind unter https://github.com/LooperXX/MMGiC verfügbar.

English

Multimodal Large Language Models (MLLMs) excel in vision--language tasks by pre-training solely on coarse-grained concept annotations (e.g., image captions). We hypothesize that integrating fine-grained concept annotations (e.g., object labels and object regions) will further improve performance, as both data granularities complement each other in terms of breadth and depth in concept representation. We introduce a new dataset featuring Multimodal Multi-Grained Concept annotations (MMGiC) for MLLMs. In constructing MMGiC, we explore the impact of different data recipes on multimodal comprehension and generation. Our analyses reveal that multi-grained concept annotations integrate and complement each other, under our structured template and a general MLLM framework. We clearly explore and demonstrate the potential of MMGiC to help MLLMs better locate and learn concepts, aligning vision and language at multiple granularities. We further validate our hypothesis by investigating the fair comparison and effective collaboration between MMGiC and image--caption data on 12 multimodal comprehension and generation benchmarks, e.g., their appropriate combination achieve 3.95% and 2.34% absolute improvements over image--caption data alone on POPE and SEED-Bench. Code, data and models will be available at https://github.com/LooperXX/MMGiC.

Erkundung von mehrkörnigen Konzeptannotationen für multimodale große Sprachmodelle

Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

papers.abstract

Support