Img-Diff: Síntese de Dados Contrastivos para Modelos de Linguagem Multimodais de Grande Escala
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
August 8, 2024
Autores: Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Desempenho (MLLMs) dependem fortemente da qualidade dos dados. Este estudo apresenta um novo conjunto de dados chamado Img-Diff, projetado para aprimorar o reconhecimento de imagens detalhadas em MLLMs, aproveitando insights da aprendizagem constrastiva e da legenda de diferenças de imagem. Ao analisar as diferenças de objetos entre imagens semelhantes, desafiamos os modelos a identificar tanto componentes correspondentes quanto distintos. Utilizamos o modelo Stable-Diffusion-XL e técnicas avançadas de edição de imagem para criar pares de imagens semelhantes que destacam substituições de objetos. Nossa metodologia inclui um Gerador de Área de Diferença para identificação de diferenças de objetos, seguido por um Gerador de Legendas de Diferença para descrições detalhadas das diferenças. O resultado é um conjunto de dados relativamente pequeno, porém de alta qualidade, de amostras de "substituição de objetos". Utilizamos o conjunto de dados proposto para ajustar finamente os MLLMs de última geração, como o MGM-7B, resultando em melhorias abrangentes nos escores de desempenho em relação aos modelos de última geração treinados com conjuntos de dados em maior escala, em inúmeras tarefas de diferença de imagem e Resposta a Perguntas Visuais. Por exemplo, nossos modelos treinados superam significativamente os modelos de última geração GPT-4V e Gemini no benchmark MMVP. Além disso, investigamos métodos alternativos para gerar dados de diferença de imagem por meio da "remoção de objetos" e realizamos uma avaliação minuciosa para confirmar a diversidade, qualidade e robustez do conjunto de dados, apresentando diversas percepções sobre a síntese de tal conjunto de dados constrastivo. Para incentivar pesquisas adicionais e avançar no campo da síntese de dados multimodais e aprimoramento das capacidades fundamentais dos MLLMs para compreensão de imagens, disponibilizamos nossos códigos e conjunto de dados em https://github.com/modelscope/data-juicer/tree/ImgDiff.
English
High-performance Multimodal Large Language Models (MLLMs) rely heavily on
data quality. This study introduces a novel dataset named Img-Diff, designed to
enhance fine-grained image recognition in MLLMs by leveraging insights from
contrastive learning and image difference captioning. By analyzing object
differences between similar images, we challenge models to identify both
matching and distinct components. We utilize the Stable-Diffusion-XL model and
advanced image editing techniques to create pairs of similar images that
highlight object replacements. Our methodology includes a Difference Area
Generator for object differences identifying, followed by a Difference Captions
Generator for detailed difference descriptions. The result is a relatively
small but high-quality dataset of "object replacement" samples. We use the the
proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B,
yielding comprehensive improvements of performance scores over SOTA models that
trained with larger-scale datasets, in numerous image difference and Visual
Question Answering tasks. For instance, our trained models notably surpass the
SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate
alternative methods for generating image difference data through "object
removal" and conduct thorough evaluation to confirm the dataset's diversity,
quality, and robustness, presenting several insights on synthesis of such
contrastive dataset. To encourage further research and advance the field of
multimodal data synthesis and enhancement of MLLMs' fundamental capabilities
for image understanding, we release our codes and dataset at
https://github.com/modelscope/data-juicer/tree/ImgDiff.Summary
AI-Generated Summary