Img-Diff: Sintesi di Dati Contrastivi per Modelli Linguistici Multimodali di Grande Scala
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
August 8, 2024
Autori: Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen
cs.AI
Abstract
I modelli linguistici multimodali ad alte prestazioni (MLLMs) dipendono fortemente dalla qualità dei dati. Questo studio introduce un nuovo dataset denominato Img-Diff, progettato per migliorare il riconoscimento fine delle immagini negli MLLM sfruttando intuizioni provenienti dall'apprendimento contrastivo e dalla descrizione delle differenze tra immagini. Analizzando le differenze tra oggetti in immagini simili, sfidiamo i modelli a identificare sia i componenti corrispondenti che quelli distinti. Utilizziamo il modello Stable-Diffusion-XL e tecniche avanzate di editing delle immagini per creare coppie di immagini simili che evidenziano la sostituzione di oggetti. La nostra metodologia include un Generatore di Aree di Differenza per l'identificazione delle differenze tra oggetti, seguito da un Generatore di Descrizioni di Differenza per descrizioni dettagliate delle differenze. Il risultato è un dataset relativamente piccolo ma di alta qualità di campioni di "sostituzione di oggetti". Utilizziamo il dataset proposto per affinare MLLM all'avanguardia (SOTA) come MGM-7B, ottenendo miglioramenti completi dei punteggi di prestazione rispetto ai modelli SOTA addestrati con dataset su larga scala, in numerosi compiti di differenza tra immagini e di risposta a domande visive. Ad esempio, i nostri modelli addestrati superano notevolmente i modelli SOTA GPT-4V e Gemini sul benchmark MMVP. Inoltre, indaghiamo metodi alternativi per generare dati di differenza tra immagini attraverso la "rimozione di oggetti" e conduciamo una valutazione approfondita per confermare la diversità, la qualità e la robustezza del dataset, presentando diverse intuizioni sulla sintesi di tale dataset contrastivo. Per incoraggiare ulteriori ricerche e avanzare il campo della sintesi di dati multimodali e del potenziamento delle capacità fondamentali degli MLLM per la comprensione delle immagini, rilasciamo i nostri codici e dataset all'indirizzo https://github.com/modelscope/data-juicer/tree/ImgDiff.
English
High-performance Multimodal Large Language Models (MLLMs) rely heavily on
data quality. This study introduces a novel dataset named Img-Diff, designed to
enhance fine-grained image recognition in MLLMs by leveraging insights from
contrastive learning and image difference captioning. By analyzing object
differences between similar images, we challenge models to identify both
matching and distinct components. We utilize the Stable-Diffusion-XL model and
advanced image editing techniques to create pairs of similar images that
highlight object replacements. Our methodology includes a Difference Area
Generator for object differences identifying, followed by a Difference Captions
Generator for detailed difference descriptions. The result is a relatively
small but high-quality dataset of "object replacement" samples. We use the the
proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B,
yielding comprehensive improvements of performance scores over SOTA models that
trained with larger-scale datasets, in numerous image difference and Visual
Question Answering tasks. For instance, our trained models notably surpass the
SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate
alternative methods for generating image difference data through "object
removal" and conduct thorough evaluation to confirm the dataset's diversity,
quality, and robustness, presenting several insights on synthesis of such
contrastive dataset. To encourage further research and advance the field of
multimodal data synthesis and enhancement of MLLMs' fundamental capabilities
for image understanding, we release our codes and dataset at
https://github.com/modelscope/data-juicer/tree/ImgDiff.