ChatPaper.aiChatPaper

이미지 차이: 다중 모달 대규모 언어 모델을 위한 대조적 데이터 합성

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

August 8, 2024
저자: Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen
cs.AI

초록

고성능 다중 모달 대형 언어 모델(MLLMs)은 데이터 품질에 크게 의존합니다. 본 연구는 대조 학습과 이미지 차이 캡션 작성에서 얻은 통찰을 활용하여 MLLMs에서 미세한 이미지 인식을 향상시키기 위해 설계된 새로운 데이터셋인 Img-Diff를 소개합니다. 유사한 이미지 간의 객체 차이를 분석함으로써 모델에 일치하는 및 구별되는 구성 요소를 식별하도록 도전합니다. 우리는 Stable-Diffusion-XL 모델과 고급 이미지 편집 기술을 활용하여 객체 교체를 강조하는 유사한 이미지 쌍을 생성합니다. 우리의 방법론에는 객체 차이 식별을 위한 차이 영역 생성기와 자세한 차이 설명을 위한 차이 캡션 생성기가 포함됩니다. 결과적으로 "객체 교체" 샘플의 상대적으로 작지만 고품질 데이터셋이 생성됩니다. 우리는 제안된 데이터셋을 MGM-7B와 같은 최첨단 MLLMs를 세밀하게 조정하여, 다수의 이미지 차이 및 시각적 질문 응답 작업에서 대규모 데이터셋으로 훈련된 최첨단 모델보다 성능 점수를 종합적으로 향상시킵니다. 예를 들어, 우리가 훈련한 모델은 MMVP 벤치마크에서 GPT-4V 및 Gemini와 같은 최첨단 모델을 현저히 능가합니다. 또한 "객체 제거"를 통해 이미지 차이 데이터를 생성하기 위한 대안적 방법을 조사하고 데이터셋의 다양성, 품질 및 견고성을 확인하기 위해 철저한 평가를 실시하여 이러한 대조적 데이터셋의 합성에 대한 여러 통찰을 제시합니다. 다중 모달 데이터 합성 및 MLLMs의 이미지 이해 능력의 기본적인 기능을 향상시키기 위한 연구를 장려하고자, 우리는 코드와 데이터셋을 https://github.com/modelscope/data-juicer/tree/ImgDiff 에 공개합니다.
English
High-performance Multimodal Large Language Models (MLLMs) rely heavily on data quality. This study introduces a novel dataset named Img-Diff, designed to enhance fine-grained image recognition in MLLMs by leveraging insights from contrastive learning and image difference captioning. By analyzing object differences between similar images, we challenge models to identify both matching and distinct components. We utilize the Stable-Diffusion-XL model and advanced image editing techniques to create pairs of similar images that highlight object replacements. Our methodology includes a Difference Area Generator for object differences identifying, followed by a Difference Captions Generator for detailed difference descriptions. The result is a relatively small but high-quality dataset of "object replacement" samples. We use the the proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B, yielding comprehensive improvements of performance scores over SOTA models that trained with larger-scale datasets, in numerous image difference and Visual Question Answering tasks. For instance, our trained models notably surpass the SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate alternative methods for generating image difference data through "object removal" and conduct thorough evaluation to confirm the dataset's diversity, quality, and robustness, presenting several insights on synthesis of such contrastive dataset. To encourage further research and advance the field of multimodal data synthesis and enhancement of MLLMs' fundamental capabilities for image understanding, we release our codes and dataset at https://github.com/modelscope/data-juicer/tree/ImgDiff.

Summary

AI-Generated Summary

PDF152November 28, 2024