Img-Diff: Kontrastive Datensynthese für multimodale große Sprachmodelle

papers.abstract

Hochleistungs-Multimodale Große Sprachmodelle (MLLMs) sind stark auf Datenqualität angewiesen. Diese Studie stellt einen neuartigen Datensatz namens Img-Diff vor, der entwickelt wurde, um die feinkörnige Bilderkennung in MLLMs zu verbessern, indem Erkenntnisse aus kontrastivem Lernen und Bildunterschiedsbeschriftung genutzt werden. Durch die Analyse von Objektunterschieden zwischen ähnlichen Bildern fordern wir Modelle heraus, sowohl übereinstimmende als auch unterschiedliche Komponenten zu identifizieren. Wir nutzen das Stable-Diffusion-XL-Modell und fortschrittliche Bildbearbeitungstechniken, um Paare ähnlicher Bilder zu erstellen, die Objektaustausche hervorheben. Unsere Methodik umfasst einen Difference Area Generator zur Identifizierung von Objektunterschieden, gefolgt von einem Difference Captions Generator für detaillierte Unterschiedsbeschreibungen. Das Ergebnis ist ein relativ kleiner, aber hochwertiger Datensatz von "Objektaustausch"-Beispielen. Wir verwenden den vorgeschlagenen Datensatz, um hochmoderne MLLMs wie MGM-7B feinzutunen, was umfassende Verbesserungen der Leistungswerte gegenüber SOTA-Modellen ergibt, die mit größeren Datensätzen trainiert wurden, in zahlreichen Bildunterschieds- und visuellen Frage-Antwort-Aufgaben. Beispielsweise übertreffen unsere trainierten Modelle deutlich die SOTA-Modelle GPT-4V und Gemini im MMVP-Benchmark. Darüber hinaus untersuchen wir alternative Methoden zur Generierung von Bildunterschiedsdaten durch "Objektentfernung" und führen eine gründliche Bewertung durch, um die Vielfalt, Qualität und Robustheit des Datensatzes zu bestätigen und mehrere Erkenntnisse zur Synthese eines solchen kontrastiven Datensatzes vorzustellen. Um weitere Forschung zu fördern und das Feld der multimodalen Datensynthese voranzutreiben sowie die grundlegenden Fähigkeiten von MLLMs zur Bildverarbeitung zu verbessern, veröffentlichen wir unsere Codes und den Datensatz unter https://github.com/modelscope/data-juicer/tree/ImgDiff.

English

High-performance Multimodal Large Language Models (MLLMs) rely heavily on data quality. This study introduces a novel dataset named Img-Diff, designed to enhance fine-grained image recognition in MLLMs by leveraging insights from contrastive learning and image difference captioning. By analyzing object differences between similar images, we challenge models to identify both matching and distinct components. We utilize the Stable-Diffusion-XL model and advanced image editing techniques to create pairs of similar images that highlight object replacements. Our methodology includes a Difference Area Generator for object differences identifying, followed by a Difference Captions Generator for detailed difference descriptions. The result is a relatively small but high-quality dataset of "object replacement" samples. We use the the proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B, yielding comprehensive improvements of performance scores over SOTA models that trained with larger-scale datasets, in numerous image difference and Visual Question Answering tasks. For instance, our trained models notably surpass the SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate alternative methods for generating image difference data through "object removal" and conduct thorough evaluation to confirm the dataset's diversity, quality, and robustness, presenting several insights on synthesis of such contrastive dataset. To encourage further research and advance the field of multimodal data synthesis and enhancement of MLLMs' fundamental capabilities for image understanding, we release our codes and dataset at https://github.com/modelscope/data-juicer/tree/ImgDiff.

Img-Diff: Kontrastive Datensynthese für multimodale große Sprachmodelle

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

papers.abstract

Support