CompCap: Verbesserung von multimodalen großen Sprachmodellen mit zusammengesetzten Bildunterschriften
CompCap: Improving Multimodal Large Language Models with Composite Captions
December 6, 2024
Autoren: Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He
cs.AI
Zusammenfassung
Inwieweit können Multimodale Große Sprachmodelle (MLLMs) zusammengesetzte Bilder verstehen? Zusammengesetzte Bilder (CIs) sind synthetische visuelle Darstellungen, die durch die Verschmelzung mehrerer visueller Elemente wie Diagramme, Poster oder Bildschirmfotos erstellt werden, anstatt direkt von einer Kamera erfasst zu werden. Während CIs in realen Anwendungen weit verbreitet sind, haben sich die jüngsten Entwicklungen von MLLMs hauptsächlich auf die Interpretation natürlicher Bilder (NIs) konzentriert. Unsere Forschung zeigt, dass aktuelle MLLMs vor erheblichen Herausforderungen stehen, um CIs genau zu verstehen, da sie oft Schwierigkeiten haben, Informationen zu extrahieren oder komplexe Schlussfolgerungen auf der Grundlage dieser Bilder durchzuführen. Wir stellen fest, dass vorhandene Trainingsdaten für CIs hauptsächlich für Frage-Antwort-Aufgaben formatiert sind (z. B. in Datensätzen wie ChartQA und ScienceQA), während hochwertige Bildunterschriftsdatensätze, die für eine robuste Vision-Sprach-Abstimmung entscheidend sind, nur für NIs verfügbar sind. Um diese Lücke zu schließen, führen wir Composite Captions (CompCap) ein, ein flexibles Framework, das Große Sprachmodelle (LLMs) und Automatisierungstools nutzt, um CIs mit genauen und detaillierten Bildunterschriften zu synthetisieren. Unter Verwendung von CompCap kuratieren wir CompCap-118K, einen Datensatz mit 118.000 Bildunterschriften-Paaren über sechs CI-Typen. Wir validieren die Wirksamkeit von CompCap-118K durch das überwachte Feintuning von MLLMs in drei Größen: xGen-MM-inst.-4B und LLaVA-NeXT-Vicuna-7B/13B. Die empirischen Ergebnisse zeigen, dass CompCap-118K das Verständnis von MLLMs für CIs signifikant verbessert und durchschnittliche Verbesserungen von 1,7%, 2,0% bzw. 2,9% über elf Benchmarks erzielt.
English
How well can Multimodal Large Language Models (MLLMs) understand composite
images? Composite images (CIs) are synthetic visuals created by merging
multiple visual elements, such as charts, posters, or screenshots, rather than
being captured directly by a camera. While CIs are prevalent in real-world
applications, recent MLLM developments have primarily focused on interpreting
natural images (NIs). Our research reveals that current MLLMs face significant
challenges in accurately understanding CIs, often struggling to extract
information or perform complex reasoning based on these images. We find that
existing training data for CIs are mostly formatted for question-answer tasks
(e.g., in datasets like ChartQA and ScienceQA), while high-quality
image-caption datasets, critical for robust vision-language alignment, are only
available for NIs. To bridge this gap, we introduce Composite Captions
(CompCap), a flexible framework that leverages Large Language Models (LLMs) and
automation tools to synthesize CIs with accurate and detailed captions. Using
CompCap, we curate CompCap-118K, a dataset containing 118K image-caption pairs
across six CI types. We validate the effectiveness of CompCap-118K by
supervised fine-tuning MLLMs of three sizes: xGen-MM-inst.-4B and
LLaVA-NeXT-Vicuna-7B/13B. Empirical results show that CompCap-118K
significantly enhances MLLMs' understanding of CIs, yielding average gains of
1.7%, 2.0%, and 2.9% across eleven benchmarks, respectively.