ChatPaper.aiChatPaper

UltraEdit: 대규모 세밀한 이미지 편집을 위한 지시 기반 접근법

UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

July 7, 2024
저자: Haozhe Zhao, Xiaojian Ma, Liang Chen, Shuzheng Si, Rujie Wu, Kaikai An, Peiyu Yu, Minjia Zhang, Qing Li, Baobao Chang
cs.AI

초록

본 논문은 지시 기반 이미지 편집을 위한 대규모(약 400만 개의 편집 샘플) 자동 생성 데이터셋인 UltraEdit를 소개합니다. 우리의 핵심 아이디어는 InstructPix2Pix 및 MagicBrush와 같은 기존 이미지 편집 데이터셋의 단점을 해결하고, 대규모 고품질 이미지 편집 샘플을 생성하기 위한 체계적인 접근 방식을 제공하는 것입니다. UltraEdit는 다음과 같은 여러 가지 독특한 장점을 제공합니다: 1) 대형 언어 모델(LLM)의 창의성과 인간 평가자의 문맥 내 편집 예시를 활용하여 더 넓은 범위의 편집 지시를 포함합니다; 2) 실제 이미지(사진 및 예술 작품 포함)를 기반으로 한 데이터 소스를 사용하여 텍스트-이미지 모델만으로 생성된 데이터셋에 비해 더 큰 다양성과 편향 감소를 제공합니다; 3) 고품질의 자동 생성 영역 주석을 통해 영역 기반 편집을 지원합니다. 우리의 실험 결과, UltraEdit로 훈련된 표준 확산 기반 편집 모델은 MagicBrush 및 Emu-Edit 벤치마크에서 새로운 기록을 세웠습니다. 또한, 분석을 통해 실제 이미지 앵커와 영역 기반 편집 데이터의 중요성을 확인했습니다. 데이터셋, 코드 및 모델은 https://ultra-editing.github.io에서 확인할 수 있습니다.
English
This paper presents UltraEdit, a large-scale (approximately 4 million editing samples), automatically generated dataset for instruction-based image editing. Our key idea is to address the drawbacks in existing image editing datasets like InstructPix2Pix and MagicBrush, and provide a systematic approach to producing massive and high-quality image editing samples. UltraEdit offers several distinct advantages: 1) It features a broader range of editing instructions by leveraging the creativity of large language models (LLMs) alongside in-context editing examples from human raters; 2) Its data sources are based on real images, including photographs and artworks, which provide greater diversity and reduced bias compared to datasets solely generated by text-to-image models; 3) It also supports region-based editing, enhanced by high-quality, automatically produced region annotations. Our experiments show that canonical diffusion-based editing baselines trained on UltraEdit set new records on MagicBrush and Emu-Edit benchmarks. Our analysis further confirms the crucial role of real image anchors and region-based editing data. The dataset, code, and models can be found in https://ultra-editing.github.io.

Summary

AI-Generated Summary

PDF151November 28, 2024