ChatPaper.aiChatPaper

Img-Diff: Contrastieve Datasynthese voor Multimodale Grote Taalmodellen

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

August 8, 2024
Auteurs: Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen
cs.AI

Samenvatting

Hoogwaardige Multimodale Grote Taalmodellen (MLLMs) zijn sterk afhankelijk van de kwaliteit van data. Deze studie introduceert een nieuwe dataset genaamd Img-Diff, ontworpen om fijnmazige beeldherkenning in MLLMs te verbeteren door inzichten uit contrastief leren en beeldverschilbeschrijving te benutten. Door objectverschillen tussen vergelijkbare afbeeldingen te analyseren, dagen we modellen uit om zowel overeenkomende als onderscheidende componenten te identificeren. We maken gebruik van het Stable-Diffusion-XL-model en geavanceerde beeldbewerkingstechnieken om paren van vergelijkbare afbeeldingen te creëren die objectvervangingen benadrukken. Onze methodologie omvat een Difference Area Generator voor het identificeren van objectverschillen, gevolgd door een Difference Captions Generator voor gedetailleerde beschrijvingen van de verschillen. Het resultaat is een relatief kleine maar hoogwaardige dataset van "objectvervanging"-voorbeelden. We gebruiken de voorgestelde dataset om state-of-the-art (SOTA) MLLMs zoals MGM-7B te finetunen, wat resulteert in uitgebreide verbeteringen van prestatiescores ten opzichte van SOTA-modellen die getraind zijn met grootschalige datasets, in talrijke beeldverschil- en Visuele Vraag Beantwoordingstaken. Zo overtreffen onze getrainde modellen de SOTA-modellen GPT-4V en Gemini op de MMVP-benchmark aanzienlijk. Daarnaast onderzoeken we alternatieve methoden voor het genereren van beeldverschilgegevens via "objectverwijdering" en voeren we een grondige evaluatie uit om de diversiteit, kwaliteit en robuustheid van de dataset te bevestigen, waarbij we verschillende inzichten presenteren over de synthese van dergelijke contrastieve datasets. Om verder onderzoek aan te moedigen en het veld van multimodale datasynthese en de verbetering van de fundamentele capaciteiten van MLLMs voor beeldbegrip te bevorderen, maken we onze codes en dataset beschikbaar op https://github.com/modelscope/data-juicer/tree/ImgDiff.
English
High-performance Multimodal Large Language Models (MLLMs) rely heavily on data quality. This study introduces a novel dataset named Img-Diff, designed to enhance fine-grained image recognition in MLLMs by leveraging insights from contrastive learning and image difference captioning. By analyzing object differences between similar images, we challenge models to identify both matching and distinct components. We utilize the Stable-Diffusion-XL model and advanced image editing techniques to create pairs of similar images that highlight object replacements. Our methodology includes a Difference Area Generator for object differences identifying, followed by a Difference Captions Generator for detailed difference descriptions. The result is a relatively small but high-quality dataset of "object replacement" samples. We use the the proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B, yielding comprehensive improvements of performance scores over SOTA models that trained with larger-scale datasets, in numerous image difference and Visual Question Answering tasks. For instance, our trained models notably surpass the SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate alternative methods for generating image difference data through "object removal" and conduct thorough evaluation to confirm the dataset's diversity, quality, and robustness, presenting several insights on synthesis of such contrastive dataset. To encourage further research and advance the field of multimodal data synthesis and enhancement of MLLMs' fundamental capabilities for image understanding, we release our codes and dataset at https://github.com/modelscope/data-juicer/tree/ImgDiff.
PDF152November 28, 2024