Img-Diff : Synthèse de données contrastives pour les modèles de langage multimodal de grande échelle
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
August 8, 2024
Auteurs: Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen
cs.AI
Résumé
Les modèles de langage multimodaux à hautes performances (MLLMs) dépendent fortement de la qualité des données. Cette étude introduit un nouveau jeu de données nommé Img-Diff, conçu pour améliorer la reconnaissance fine d'images dans les MLLMs en exploitant les insights de l'apprentissage contrastif et de la génération de descriptions de différences d'images. En analysant les différences d'objets entre des images similaires, nous mettons les modèles au défi d'identifier à la fois les composants correspondants et distincts. Nous utilisons le modèle Stable-Diffusion-XL et des techniques avancées d'édition d'images pour créer des paires d'images similaires qui mettent en évidence les remplacements d'objets. Notre méthodologie inclut un Générateur de Zones de Différence pour identifier les différences d'objets, suivi d'un Générateur de Descriptions de Différences pour produire des descriptions détaillées des différences. Le résultat est un jeu de données relativement petit mais de haute qualité, composé d'échantillons de "remplacement d'objets". Nous utilisons ce jeu de données proposé pour affiner des MLLMs de pointe tels que MGM-7B, obtenant des améliorations globales des scores de performance par rapport aux modèles de pointe entraînés avec des jeux de données plus volumineux, dans de nombreuses tâches de différences d'images et de Réponse à des Questions Visuelles. Par exemple, nos modèles entraînés surpassent notablement les modèles de pointe GPT-4V et Gemini sur le benchmark MMVP. En outre, nous explorons des méthodes alternatives pour générer des données de différences d'images via la "suppression d'objets" et menons une évaluation approfondie pour confirmer la diversité, la qualité et la robustesse du jeu de données, présentant plusieurs insights sur la synthèse de tels jeux de données contrastifs. Pour encourager la recherche future et faire progresser le domaine de la synthèse de données multimodales et l'amélioration des capacités fondamentales des MLLMs pour la compréhension d'images, nous publions nos codes et notre jeu de données à l'adresse https://github.com/modelscope/data-juicer/tree/ImgDiff.
English
High-performance Multimodal Large Language Models (MLLMs) rely heavily on
data quality. This study introduces a novel dataset named Img-Diff, designed to
enhance fine-grained image recognition in MLLMs by leveraging insights from
contrastive learning and image difference captioning. By analyzing object
differences between similar images, we challenge models to identify both
matching and distinct components. We utilize the Stable-Diffusion-XL model and
advanced image editing techniques to create pairs of similar images that
highlight object replacements. Our methodology includes a Difference Area
Generator for object differences identifying, followed by a Difference Captions
Generator for detailed difference descriptions. The result is a relatively
small but high-quality dataset of "object replacement" samples. We use the the
proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B,
yielding comprehensive improvements of performance scores over SOTA models that
trained with larger-scale datasets, in numerous image difference and Visual
Question Answering tasks. For instance, our trained models notably surpass the
SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate
alternative methods for generating image difference data through "object
removal" and conduct thorough evaluation to confirm the dataset's diversity,
quality, and robustness, presenting several insights on synthesis of such
contrastive dataset. To encourage further research and advance the field of
multimodal data synthesis and enhancement of MLLMs' fundamental capabilities
for image understanding, we release our codes and dataset at
https://github.com/modelscope/data-juicer/tree/ImgDiff.Summary
AI-Generated Summary