Img-Diff: Contrastieve Datasynthese voor Multimodale Grote Taalmodellen
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
August 8, 2024
Auteurs: Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen
cs.AI
Samenvatting
Hoogwaardige Multimodale Grote Taalmodellen (MLLMs) zijn sterk afhankelijk van
de kwaliteit van data. Deze studie introduceert een nieuwe dataset genaamd
Img-Diff, ontworpen om fijnmazige beeldherkenning in MLLMs te verbeteren door
inzichten uit contrastief leren en beeldverschilbeschrijving te benutten. Door
objectverschillen tussen vergelijkbare afbeeldingen te analyseren, dagen we
modellen uit om zowel overeenkomende als onderscheidende componenten te
identificeren. We maken gebruik van het Stable-Diffusion-XL-model en geavanceerde
beeldbewerkingstechnieken om paren van vergelijkbare afbeeldingen te creëren die
objectvervangingen benadrukken. Onze methodologie omvat een Difference Area
Generator voor het identificeren van objectverschillen, gevolgd door een
Difference Captions Generator voor gedetailleerde beschrijvingen van de
verschillen. Het resultaat is een relatief kleine maar hoogwaardige dataset van
"objectvervanging"-voorbeelden. We gebruiken de voorgestelde dataset om
state-of-the-art (SOTA) MLLMs zoals MGM-7B te finetunen, wat resulteert in
uitgebreide verbeteringen van prestatiescores ten opzichte van SOTA-modellen die
getraind zijn met grootschalige datasets, in talrijke beeldverschil- en Visuele
Vraag Beantwoordingstaken. Zo overtreffen onze getrainde modellen de SOTA-modellen
GPT-4V en Gemini op de MMVP-benchmark aanzienlijk. Daarnaast onderzoeken we
alternatieve methoden voor het genereren van beeldverschilgegevens via
"objectverwijdering" en voeren we een grondige evaluatie uit om de diversiteit,
kwaliteit en robuustheid van de dataset te bevestigen, waarbij we verschillende
inzichten presenteren over de synthese van dergelijke contrastieve datasets. Om
verder onderzoek aan te moedigen en het veld van multimodale datasynthese en de
verbetering van de fundamentele capaciteiten van MLLMs voor beeldbegrip te
bevorderen, maken we onze codes en dataset beschikbaar op
https://github.com/modelscope/data-juicer/tree/ImgDiff.
English
High-performance Multimodal Large Language Models (MLLMs) rely heavily on
data quality. This study introduces a novel dataset named Img-Diff, designed to
enhance fine-grained image recognition in MLLMs by leveraging insights from
contrastive learning and image difference captioning. By analyzing object
differences between similar images, we challenge models to identify both
matching and distinct components. We utilize the Stable-Diffusion-XL model and
advanced image editing techniques to create pairs of similar images that
highlight object replacements. Our methodology includes a Difference Area
Generator for object differences identifying, followed by a Difference Captions
Generator for detailed difference descriptions. The result is a relatively
small but high-quality dataset of "object replacement" samples. We use the the
proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B,
yielding comprehensive improvements of performance scores over SOTA models that
trained with larger-scale datasets, in numerous image difference and Visual
Question Answering tasks. For instance, our trained models notably surpass the
SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate
alternative methods for generating image difference data through "object
removal" and conduct thorough evaluation to confirm the dataset's diversity,
quality, and robustness, presenting several insights on synthesis of such
contrastive dataset. To encourage further research and advance the field of
multimodal data synthesis and enhancement of MLLMs' fundamental capabilities
for image understanding, we release our codes and dataset at
https://github.com/modelscope/data-juicer/tree/ImgDiff.