Img-Diff : Synthèse de données contrastives pour les modèles de langage multimodal de grande échelle

Résumé

Les modèles de langage multimodaux à hautes performances (MLLMs) dépendent fortement de la qualité des données. Cette étude introduit un nouveau jeu de données nommé Img-Diff, conçu pour améliorer la reconnaissance fine d'images dans les MLLMs en exploitant les insights de l'apprentissage contrastif et de la génération de descriptions de différences d'images. En analysant les différences d'objets entre des images similaires, nous mettons les modèles au défi d'identifier à la fois les composants correspondants et distincts. Nous utilisons le modèle Stable-Diffusion-XL et des techniques avancées d'édition d'images pour créer des paires d'images similaires qui mettent en évidence les remplacements d'objets. Notre méthodologie inclut un Générateur de Zones de Différence pour identifier les différences d'objets, suivi d'un Générateur de Descriptions de Différences pour produire des descriptions détaillées des différences. Le résultat est un jeu de données relativement petit mais de haute qualité, composé d'échantillons de "remplacement d'objets". Nous utilisons ce jeu de données proposé pour affiner des MLLMs de pointe tels que MGM-7B, obtenant des améliorations globales des scores de performance par rapport aux modèles de pointe entraînés avec des jeux de données plus volumineux, dans de nombreuses tâches de différences d'images et de Réponse à des Questions Visuelles. Par exemple, nos modèles entraînés surpassent notablement les modèles de pointe GPT-4V et Gemini sur le benchmark MMVP. En outre, nous explorons des méthodes alternatives pour générer des données de différences d'images via la "suppression d'objets" et menons une évaluation approfondie pour confirmer la diversité, la qualité et la robustesse du jeu de données, présentant plusieurs insights sur la synthèse de tels jeux de données contrastifs. Pour encourager la recherche future et faire progresser le domaine de la synthèse de données multimodales et l'amélioration des capacités fondamentales des MLLMs pour la compréhension d'images, nous publions nos codes et notre jeu de données à l'adresse https://github.com/modelscope/data-juicer/tree/ImgDiff.

English

High-performance Multimodal Large Language Models (MLLMs) rely heavily on data quality. This study introduces a novel dataset named Img-Diff, designed to enhance fine-grained image recognition in MLLMs by leveraging insights from contrastive learning and image difference captioning. By analyzing object differences between similar images, we challenge models to identify both matching and distinct components. We utilize the Stable-Diffusion-XL model and advanced image editing techniques to create pairs of similar images that highlight object replacements. Our methodology includes a Difference Area Generator for object differences identifying, followed by a Difference Captions Generator for detailed difference descriptions. The result is a relatively small but high-quality dataset of "object replacement" samples. We use the the proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B, yielding comprehensive improvements of performance scores over SOTA models that trained with larger-scale datasets, in numerous image difference and Visual Question Answering tasks. For instance, our trained models notably surpass the SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate alternative methods for generating image difference data through "object removal" and conduct thorough evaluation to confirm the dataset's diversity, quality, and robustness, presenting several insights on synthesis of such contrastive dataset. To encourage further research and advance the field of multimodal data synthesis and enhancement of MLLMs' fundamental capabilities for image understanding, we release our codes and dataset at https://github.com/modelscope/data-juicer/tree/ImgDiff.