Img-Diff: Контрастный синтез данных для мультимодальных крупных языковых моделей
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
August 8, 2024
Авторы: Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen
cs.AI
Аннотация
Многозадачные языковые модели большого масштаба (MLLM), обладающие высокой производительностью, сильно зависят от качества данных. В данном исследовании представлен новый набор данных под названием Img-Diff, разработанный для улучшения точного распознавания изображений в MLLM путем использования принципов контрастного обучения и подписей к различиям на изображениях. Анализируя различия между объектами на похожих изображениях, мы ставим перед моделями задачу идентификации как совпадающих, так и различных компонентов. Мы используем модель Stable-Diffusion-XL и продвинутые техники редактирования изображений для создания пар похожих изображений, выделяющих замену объектов. Наш метод включает Генератор области различий для идентификации различий объектов, за которым следует Генератор подписей к различиям для подробных описаний различий. Результатом является относительно небольшой, но высококачественный набор данных образцов "замены объектов". Мы используем предложенный набор данных для доработки современных моделей MLLM, таких как MGM-7B, что приводит к всестороннему улучшению показателей производительности по сравнению с современными моделями, обученными на более масштабных наборах данных, во многих задачах по различию изображений и визуальному вопросно-ответному моделированию. Например, наши обученные модели значительно превосходят современные модели GPT-4V и Gemini на бенчмарке MMVP. Кроме того, мы исследуем альтернативные методы генерации данных по различию изображений путем "удаления объектов" и проводим тщательную оценку для подтверждения разнообразия, качества и устойчивости набора данных, представляя несколько идей о синтезе такого контрастного набора данных. Для поощрения дальнейших исследований и продвижения области синтеза мультимодальных данных и улучшения фундаментальных возможностей MLLM в понимании изображений мы выкладываем наши коды и набор данных на https://github.com/modelscope/data-juicer/tree/ImgDiff.
English
High-performance Multimodal Large Language Models (MLLMs) rely heavily on
data quality. This study introduces a novel dataset named Img-Diff, designed to
enhance fine-grained image recognition in MLLMs by leveraging insights from
contrastive learning and image difference captioning. By analyzing object
differences between similar images, we challenge models to identify both
matching and distinct components. We utilize the Stable-Diffusion-XL model and
advanced image editing techniques to create pairs of similar images that
highlight object replacements. Our methodology includes a Difference Area
Generator for object differences identifying, followed by a Difference Captions
Generator for detailed difference descriptions. The result is a relatively
small but high-quality dataset of "object replacement" samples. We use the the
proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B,
yielding comprehensive improvements of performance scores over SOTA models that
trained with larger-scale datasets, in numerous image difference and Visual
Question Answering tasks. For instance, our trained models notably surpass the
SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate
alternative methods for generating image difference data through "object
removal" and conduct thorough evaluation to confirm the dataset's diversity,
quality, and robustness, presenting several insights on synthesis of such
contrastive dataset. To encourage further research and advance the field of
multimodal data synthesis and enhancement of MLLMs' fundamental capabilities
for image understanding, we release our codes and dataset at
https://github.com/modelscope/data-juicer/tree/ImgDiff.