ChatPaper.aiChatPaper

MagicBrush: 지침 기반 이미지 편집을 위한 수동 주석 데이터셋

MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

June 16, 2023
저자: Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su
cs.AI

초록

텍스트 기반 이미지 편집은 개인적인 사용부터 포토샵과 같은 전문적인 응용 프로그램에 이르기까지 일상생활에서 널리 요구되는 기능입니다. 그러나 기존 방법들은 제로샷(zero-shot) 방식이거나 자동으로 합성된 데이터셋을 기반으로 학습된 경우가 많으며, 이러한 데이터셋에는 상당한 양의 노이즈가 포함되어 있습니다. 따라서 실제로 원하는 결과를 얻기 위해서는 여전히 많은 수동 조정이 필요합니다. 이 문제를 해결하기 위해 우리는 MagicBrush(https://osu-nlp-group.github.io/MagicBrush/)를 소개합니다. MagicBrush는 단일 턴, 다중 턴, 마스크 제공, 마스크 없는 편집 등 다양한 시나리오를 포함하는, 지침 기반 실제 이미지 편집을 위한 최초의 대규모 수동 주석 데이터셋입니다. MagicBrush는 10,000개 이상의 수동 주석이 달린 삼중항(원본 이미지, 지침, 목표 이미지)으로 구성되어 있으며, 이를 통해 대규모 텍스트 기반 이미지 편집 모델을 학습할 수 있습니다. 우리는 MagicBrush를 사용하여 InstructPix2Pix를 미세 조정(fine-tuning)했으며, 새로운 모델이 인간 평가에 따라 훨씬 더 나은 이미지를 생성할 수 있음을 보여줍니다. 또한, 우리는 현재의 이미지 편집 베이스라인을 정량적, 정성적, 인간 평가 등 다양한 차원에서 평가하기 위한 광범위한 실험을 수행했습니다. 그 결과, 우리 데이터셋의 도전적인 특성과 현재 베이스라인과 실제 세계의 편집 요구 사이의 격차가 드러났습니다.
English
Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triples (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.
PDF356December 15, 2024