Img-Diff: Sintesi di Dati Contrastivi per Modelli Linguistici Multimodali di Grande Scala

Abstract

I modelli linguistici multimodali ad alte prestazioni (MLLMs) dipendono fortemente dalla qualità dei dati. Questo studio introduce un nuovo dataset denominato Img-Diff, progettato per migliorare il riconoscimento fine delle immagini negli MLLM sfruttando intuizioni provenienti dall'apprendimento contrastivo e dalla descrizione delle differenze tra immagini. Analizzando le differenze tra oggetti in immagini simili, sfidiamo i modelli a identificare sia i componenti corrispondenti che quelli distinti. Utilizziamo il modello Stable-Diffusion-XL e tecniche avanzate di editing delle immagini per creare coppie di immagini simili che evidenziano la sostituzione di oggetti. La nostra metodologia include un Generatore di Aree di Differenza per l'identificazione delle differenze tra oggetti, seguito da un Generatore di Descrizioni di Differenza per descrizioni dettagliate delle differenze. Il risultato è un dataset relativamente piccolo ma di alta qualità di campioni di "sostituzione di oggetti". Utilizziamo il dataset proposto per affinare MLLM all'avanguardia (SOTA) come MGM-7B, ottenendo miglioramenti completi dei punteggi di prestazione rispetto ai modelli SOTA addestrati con dataset su larga scala, in numerosi compiti di differenza tra immagini e di risposta a domande visive. Ad esempio, i nostri modelli addestrati superano notevolmente i modelli SOTA GPT-4V e Gemini sul benchmark MMVP. Inoltre, indaghiamo metodi alternativi per generare dati di differenza tra immagini attraverso la "rimozione di oggetti" e conduciamo una valutazione approfondita per confermare la diversità, la qualità e la robustezza del dataset, presentando diverse intuizioni sulla sintesi di tale dataset contrastivo. Per incoraggiare ulteriori ricerche e avanzare il campo della sintesi di dati multimodali e del potenziamento delle capacità fondamentali degli MLLM per la comprensione delle immagini, rilasciamo i nostri codici e dataset all'indirizzo https://github.com/modelscope/data-juicer/tree/ImgDiff.

English

High-performance Multimodal Large Language Models (MLLMs) rely heavily on data quality. This study introduces a novel dataset named Img-Diff, designed to enhance fine-grained image recognition in MLLMs by leveraging insights from contrastive learning and image difference captioning. By analyzing object differences between similar images, we challenge models to identify both matching and distinct components. We utilize the Stable-Diffusion-XL model and advanced image editing techniques to create pairs of similar images that highlight object replacements. Our methodology includes a Difference Area Generator for object differences identifying, followed by a Difference Captions Generator for detailed difference descriptions. The result is a relatively small but high-quality dataset of "object replacement" samples. We use the the proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B, yielding comprehensive improvements of performance scores over SOTA models that trained with larger-scale datasets, in numerous image difference and Visual Question Answering tasks. For instance, our trained models notably surpass the SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate alternative methods for generating image difference data through "object removal" and conduct thorough evaluation to confirm the dataset's diversity, quality, and robustness, presenting several insights on synthesis of such contrastive dataset. To encourage further research and advance the field of multimodal data synthesis and enhancement of MLLMs' fundamental capabilities for image understanding, we release our codes and dataset at https://github.com/modelscope/data-juicer/tree/ImgDiff.

Img-Diff: Sintesi di Dati Contrastivi per Modelli Linguistici Multimodali di Grande Scala

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

Abstract

Support