Img-Diff: Контрастный синтез данных для мультимодальных крупных языковых моделей

Аннотация

Многозадачные языковые модели большого масштаба (MLLM), обладающие высокой производительностью, сильно зависят от качества данных. В данном исследовании представлен новый набор данных под названием Img-Diff, разработанный для улучшения точного распознавания изображений в MLLM путем использования принципов контрастного обучения и подписей к различиям на изображениях. Анализируя различия между объектами на похожих изображениях, мы ставим перед моделями задачу идентификации как совпадающих, так и различных компонентов. Мы используем модель Stable-Diffusion-XL и продвинутые техники редактирования изображений для создания пар похожих изображений, выделяющих замену объектов. Наш метод включает Генератор области различий для идентификации различий объектов, за которым следует Генератор подписей к различиям для подробных описаний различий. Результатом является относительно небольшой, но высококачественный набор данных образцов "замены объектов". Мы используем предложенный набор данных для доработки современных моделей MLLM, таких как MGM-7B, что приводит к всестороннему улучшению показателей производительности по сравнению с современными моделями, обученными на более масштабных наборах данных, во многих задачах по различию изображений и визуальному вопросно-ответному моделированию. Например, наши обученные модели значительно превосходят современные модели GPT-4V и Gemini на бенчмарке MMVP. Кроме того, мы исследуем альтернативные методы генерации данных по различию изображений путем "удаления объектов" и проводим тщательную оценку для подтверждения разнообразия, качества и устойчивости набора данных, представляя несколько идей о синтезе такого контрастного набора данных. Для поощрения дальнейших исследований и продвижения области синтеза мультимодальных данных и улучшения фундаментальных возможностей MLLM в понимании изображений мы выкладываем наши коды и набор данных на https://github.com/modelscope/data-juicer/tree/ImgDiff.

English

High-performance Multimodal Large Language Models (MLLMs) rely heavily on data quality. This study introduces a novel dataset named Img-Diff, designed to enhance fine-grained image recognition in MLLMs by leveraging insights from contrastive learning and image difference captioning. By analyzing object differences between similar images, we challenge models to identify both matching and distinct components. We utilize the Stable-Diffusion-XL model and advanced image editing techniques to create pairs of similar images that highlight object replacements. Our methodology includes a Difference Area Generator for object differences identifying, followed by a Difference Captions Generator for detailed difference descriptions. The result is a relatively small but high-quality dataset of "object replacement" samples. We use the the proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B, yielding comprehensive improvements of performance scores over SOTA models that trained with larger-scale datasets, in numerous image difference and Visual Question Answering tasks. For instance, our trained models notably surpass the SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate alternative methods for generating image difference data through "object removal" and conduct thorough evaluation to confirm the dataset's diversity, quality, and robustness, presenting several insights on synthesis of such contrastive dataset. To encourage further research and advance the field of multimodal data synthesis and enhancement of MLLMs' fundamental capabilities for image understanding, we release our codes and dataset at https://github.com/modelscope/data-juicer/tree/ImgDiff.

Img-Diff: Контрастный синтез данных для мультимодальных крупных языковых моделей

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

Аннотация

Support