MagicBrush: Un Dataset Annotato Manualmente per la Modifica di Immagini Guidata da Istruzioni

Abstract

La modifica delle immagini guidata da testo è ampiamente necessaria nella vita quotidiana, spaziando dall'uso personale ad applicazioni professionali come Photoshop. Tuttavia, i metodi esistenti sono o zero-shot o addestrati su un dataset sintetizzato automaticamente, che contiene un elevato volume di rumore. Pertanto, richiedono ancora molta regolazione manuale per produrre risultati desiderabili nella pratica. Per affrontare questo problema, introduciamo MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), il primo dataset su larga scala, annotato manualmente, per la modifica di immagini reali guidata da istruzioni che copre scenari diversi: modifica a turno singolo, a turni multipli, con maschera fornita e senza maschera. MagicBrush comprende oltre 10K triple annotate manualmente (immagine sorgente, istruzione, immagine target), che supportano l'addestramento di modelli su larga scala per la modifica delle immagini guidata da testo. Abbiamo fine-tunato InstructPix2Pix su MagicBrush e dimostrato che il nuovo modello può produrre immagini molto migliori secondo la valutazione umana. Abbiamo inoltre condotto esperimenti estesi per valutare le baseline attuali per la modifica delle immagini da molteplici dimensioni, tra cui valutazioni quantitative, qualitative e umane. I risultati rivelano la natura impegnativa del nostro dataset e il divario tra le baseline attuali e le esigenze di modifica del mondo reale.

English

Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triples (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.

MagicBrush: Un Dataset Annotato Manualmente per la Modifica di Immagini Guidata da Istruzioni

MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

Abstract

Support