Img-Diff: Kontrastive Datensynthese für multimodale große Sprachmodelle
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
August 8, 2024
Autoren: Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen
cs.AI
Zusammenfassung
Hochleistungs-Multimodale Große Sprachmodelle (MLLMs) sind stark auf Datenqualität angewiesen. Diese Studie stellt einen neuartigen Datensatz namens Img-Diff vor, der entwickelt wurde, um die feinkörnige Bilderkennung in MLLMs zu verbessern, indem Erkenntnisse aus kontrastivem Lernen und Bildunterschiedsbeschriftung genutzt werden. Durch die Analyse von Objektunterschieden zwischen ähnlichen Bildern fordern wir Modelle heraus, sowohl übereinstimmende als auch unterschiedliche Komponenten zu identifizieren. Wir nutzen das Stable-Diffusion-XL-Modell und fortschrittliche Bildbearbeitungstechniken, um Paare ähnlicher Bilder zu erstellen, die Objektaustausche hervorheben. Unsere Methodik umfasst einen Difference Area Generator zur Identifizierung von Objektunterschieden, gefolgt von einem Difference Captions Generator für detaillierte Unterschiedsbeschreibungen. Das Ergebnis ist ein relativ kleiner, aber hochwertiger Datensatz von "Objektaustausch"-Beispielen. Wir verwenden den vorgeschlagenen Datensatz, um hochmoderne MLLMs wie MGM-7B feinzutunen, was umfassende Verbesserungen der Leistungswerte gegenüber SOTA-Modellen ergibt, die mit größeren Datensätzen trainiert wurden, in zahlreichen Bildunterschieds- und visuellen Frage-Antwort-Aufgaben. Beispielsweise übertreffen unsere trainierten Modelle deutlich die SOTA-Modelle GPT-4V und Gemini im MMVP-Benchmark. Darüber hinaus untersuchen wir alternative Methoden zur Generierung von Bildunterschiedsdaten durch "Objektentfernung" und führen eine gründliche Bewertung durch, um die Vielfalt, Qualität und Robustheit des Datensatzes zu bestätigen und mehrere Erkenntnisse zur Synthese eines solchen kontrastiven Datensatzes vorzustellen. Um weitere Forschung zu fördern und das Feld der multimodalen Datensynthese voranzutreiben sowie die grundlegenden Fähigkeiten von MLLMs zur Bildverarbeitung zu verbessern, veröffentlichen wir unsere Codes und den Datensatz unter https://github.com/modelscope/data-juicer/tree/ImgDiff.
English
High-performance Multimodal Large Language Models (MLLMs) rely heavily on
data quality. This study introduces a novel dataset named Img-Diff, designed to
enhance fine-grained image recognition in MLLMs by leveraging insights from
contrastive learning and image difference captioning. By analyzing object
differences between similar images, we challenge models to identify both
matching and distinct components. We utilize the Stable-Diffusion-XL model and
advanced image editing techniques to create pairs of similar images that
highlight object replacements. Our methodology includes a Difference Area
Generator for object differences identifying, followed by a Difference Captions
Generator for detailed difference descriptions. The result is a relatively
small but high-quality dataset of "object replacement" samples. We use the the
proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B,
yielding comprehensive improvements of performance scores over SOTA models that
trained with larger-scale datasets, in numerous image difference and Visual
Question Answering tasks. For instance, our trained models notably surpass the
SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate
alternative methods for generating image difference data through "object
removal" and conduct thorough evaluation to confirm the dataset's diversity,
quality, and robustness, presenting several insights on synthesis of such
contrastive dataset. To encourage further research and advance the field of
multimodal data synthesis and enhancement of MLLMs' fundamental capabilities
for image understanding, we release our codes and dataset at
https://github.com/modelscope/data-juicer/tree/ImgDiff.Summary
AI-Generated Summary