Erkundung von mehrkörnigen Konzeptannotationen für multimodale große Sprachmodelle
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models
December 8, 2024
Autoren: Xiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs) zeichnen sich in Vision-Sprach-Aufgaben aus, indem sie ausschließlich auf grobkörnige Konzeptannotationen (z. B. Bildunterschriften) vortrainiert werden. Wir vermuten, dass die Integration feinkörniger Konzeptannotationen (z. B. Objektetiketten und Objektregionen) die Leistung weiter verbessern wird, da sich beide Datengranularitäten in Bezug auf Breite und Tiefe der Konzeptrepräsentation ergänzen. Wir stellen einen neuen Datensatz vor, der Multimodale Multi-Grained Concept-Annotationen (MMGiC) für MLLMs enthält. Bei der Erstellung von MMGiC untersuchen wir die Auswirkungen verschiedener Datensätze auf das multimodale Verständnis und die Generierung. Unsere Analysen zeigen, dass Multi-Grained Concept-Annotationen sich unter unserer strukturierten Vorlage und einem allgemeinen MLLM-Framework integrieren und ergänzen. Wir erforschen und zeigen eindeutig das Potenzial von MMGiC auf, MLLMs dabei zu unterstützen, Konzepte besser zu lokalisieren und zu erlernen, indem Vision und Sprache auf mehreren Granularitätsebenen ausgerichtet werden. Wir validieren unsere Hypothese weiter, indem wir den fairen Vergleich und die effektive Zusammenarbeit zwischen MMGiC und Bild-Untertitel-Daten in 12 multimodalen Verständnis- und Generierungstests untersuchen, z. B. erreichen ihre angemessene Kombination 3,95% bzw. 2,34% absolute Verbesserungen gegenüber alleinigen Bild-Untertitel-Daten bei POPE und SEED-Bench. Code, Daten und Modelle sind unter https://github.com/LooperXX/MMGiC verfügbar.
English
Multimodal Large Language Models (MLLMs) excel in vision--language tasks by
pre-training solely on coarse-grained concept annotations (e.g., image
captions). We hypothesize that integrating fine-grained concept annotations
(e.g., object labels and object regions) will further improve performance, as
both data granularities complement each other in terms of breadth and depth in
concept representation. We introduce a new dataset featuring Multimodal
Multi-Grained Concept annotations (MMGiC) for MLLMs. In constructing MMGiC, we
explore the impact of different data recipes on multimodal comprehension and
generation. Our analyses reveal that multi-grained concept annotations
integrate and complement each other, under our structured template and a
general MLLM framework. We clearly explore and demonstrate the potential of
MMGiC to help MLLMs better locate and learn concepts, aligning vision and
language at multiple granularities. We further validate our hypothesis by
investigating the fair comparison and effective collaboration between MMGiC and
image--caption data on 12 multimodal comprehension and generation benchmarks,
e.g., their appropriate combination achieve 3.95% and 2.34% absolute
improvements over image--caption data alone on POPE and SEED-Bench. Code, data
and models will be available at https://github.com/LooperXX/MMGiC.Summary
AI-Generated Summary