MagicBrush: Um Conjunto de Dados Anotado Manualmente para Edição de Imagens Orientada por Instruções

Resumo

A edição de imagens guiada por texto é amplamente necessária no cotidiano, variando de uso pessoal a aplicações profissionais como o Photoshop. No entanto, os métodos existentes são ou de execução única (zero-shot) ou treinados em um conjunto de dados sintetizado automaticamente, que contém um alto volume de ruído. Assim, eles ainda exigem muito ajuste manual para produzir resultados desejáveis na prática. Para resolver esse problema, apresentamos o MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), o primeiro conjunto de dados em grande escala e anotado manualmente para edição de imagens reais guiada por instruções, que abrange diversos cenários: edição de única etapa, múltiplas etapas, com máscara fornecida e sem máscara. O MagicBrush compreende mais de 10 mil triplas anotadas manualmente (imagem de origem, instrução, imagem de destino), que suportam o treinamento de modelos de edição de imagens guiada por texto em grande escala. Ajustamos o InstructPix2Pix no MagicBrush e mostramos que o novo modelo pode produzir imagens muito melhores de acordo com a avaliação humana. Além disso, realizamos experimentos extensivos para avaliar as abordagens atuais de edição de imagens em múltiplas dimensões, incluindo avaliações quantitativas, qualitativas e humanas. Os resultados revelam a natureza desafiadora do nosso conjunto de dados e a lacuna entre as abordagens atuais e as necessidades de edição do mundo real.

English

Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triples (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.

MagicBrush: Um Conjunto de Dados Anotado Manualmente para Edição de Imagens Orientada por Instruções

MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

Resumo

Support