Img-Diff: Síntese de Dados Contrastivos para Modelos de Linguagem Multimodais de Grande Escala

Resumo

Os Modelos de Linguagem Multimodais de Grande Desempenho (MLLMs) dependem fortemente da qualidade dos dados. Este estudo apresenta um novo conjunto de dados chamado Img-Diff, projetado para aprimorar o reconhecimento de imagens detalhadas em MLLMs, aproveitando insights da aprendizagem constrastiva e da legenda de diferenças de imagem. Ao analisar as diferenças de objetos entre imagens semelhantes, desafiamos os modelos a identificar tanto componentes correspondentes quanto distintos. Utilizamos o modelo Stable-Diffusion-XL e técnicas avançadas de edição de imagem para criar pares de imagens semelhantes que destacam substituições de objetos. Nossa metodologia inclui um Gerador de Área de Diferença para identificação de diferenças de objetos, seguido por um Gerador de Legendas de Diferença para descrições detalhadas das diferenças. O resultado é um conjunto de dados relativamente pequeno, porém de alta qualidade, de amostras de "substituição de objetos". Utilizamos o conjunto de dados proposto para ajustar finamente os MLLMs de última geração, como o MGM-7B, resultando em melhorias abrangentes nos escores de desempenho em relação aos modelos de última geração treinados com conjuntos de dados em maior escala, em inúmeras tarefas de diferença de imagem e Resposta a Perguntas Visuais. Por exemplo, nossos modelos treinados superam significativamente os modelos de última geração GPT-4V e Gemini no benchmark MMVP. Além disso, investigamos métodos alternativos para gerar dados de diferença de imagem por meio da "remoção de objetos" e realizamos uma avaliação minuciosa para confirmar a diversidade, qualidade e robustez do conjunto de dados, apresentando diversas percepções sobre a síntese de tal conjunto de dados constrastivo. Para incentivar pesquisas adicionais e avançar no campo da síntese de dados multimodais e aprimoramento das capacidades fundamentais dos MLLMs para compreensão de imagens, disponibilizamos nossos códigos e conjunto de dados em https://github.com/modelscope/data-juicer/tree/ImgDiff.

English

High-performance Multimodal Large Language Models (MLLMs) rely heavily on data quality. This study introduces a novel dataset named Img-Diff, designed to enhance fine-grained image recognition in MLLMs by leveraging insights from contrastive learning and image difference captioning. By analyzing object differences between similar images, we challenge models to identify both matching and distinct components. We utilize the Stable-Diffusion-XL model and advanced image editing techniques to create pairs of similar images that highlight object replacements. Our methodology includes a Difference Area Generator for object differences identifying, followed by a Difference Captions Generator for detailed difference descriptions. The result is a relatively small but high-quality dataset of "object replacement" samples. We use the the proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B, yielding comprehensive improvements of performance scores over SOTA models that trained with larger-scale datasets, in numerous image difference and Visual Question Answering tasks. For instance, our trained models notably surpass the SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate alternative methods for generating image difference data through "object removal" and conduct thorough evaluation to confirm the dataset's diversity, quality, and robustness, presenting several insights on synthesis of such contrastive dataset. To encourage further research and advance the field of multimodal data synthesis and enhancement of MLLMs' fundamental capabilities for image understanding, we release our codes and dataset at https://github.com/modelscope/data-juicer/tree/ImgDiff.

Img-Diff: Síntese de Dados Contrastivos para Modelos de Linguagem Multimodais de Grande Escala

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

Resumo

Summary

Support

Support