MagicBrush: Een handmatig geannoteerde dataset voor instructiegestuurd beeldbewerken
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing
June 16, 2023
Auteurs: Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su
cs.AI
Samenvatting
Tekstgestuurd beeldbewerking is in het dagelijks leven veelgevraagd, variërend van persoonlijk gebruik tot professionele toepassingen zoals Photoshop. Bestaande methoden zijn echter ofwel zero-shot of getraind op een automatisch gegenereerde dataset, die veel ruis bevat. Daarom is er in de praktijk nog steeds veel handmatige afstemming nodig om gewenste resultaten te bereiken. Om dit probleem aan te pakken, introduceren we MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), de eerste grootschalige, handmatig geannoteerde dataset voor instructiegestuurde bewerking van echte afbeeldingen, die diverse scenario's omvat: enkelvoudige, meervoudige, masker-geleverde en masker-vrije bewerkingen. MagicBrush bestaat uit meer dan 10K handmatig geannoteerde triples (bronafbeelding, instructie, doelafbeelding), die het trainen van grootschalige tekstgestuurde beeldbewerkingsmodellen ondersteunen. We fine-tunen InstructPix2Pix op MagicBrush en laten zien dat het nieuwe model aanzienlijk betere afbeeldingen kan produceren volgens menselijke evaluatie. We voeren verder uitgebreide experimenten uit om huidige beeldbewerkingsbaselines te evalueren vanuit meerdere dimensies, waaronder kwantitatieve, kwalitatieve en menselijke evaluaties. De resultaten onthullen de uitdagende aard van onze dataset en de kloof tussen huidige baselines en de behoeften van beeldbewerking in de praktijk.
English
Text-guided image editing is widely needed in daily life, ranging from
personal use to professional applications such as Photoshop. However, existing
methods are either zero-shot or trained on an automatically synthesized
dataset, which contains a high volume of noise. Thus, they still require lots
of manual tuning to produce desirable outcomes in practice. To address this
issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/),
the first large-scale, manually annotated dataset for instruction-guided real
image editing that covers diverse scenarios: single-turn, multi-turn,
mask-provided, and mask-free editing. MagicBrush comprises over 10K manually
annotated triples (source image, instruction, target image), which supports
trainining large-scale text-guided image editing models. We fine-tune
InstructPix2Pix on MagicBrush and show that the new model can produce much
better images according to human evaluation. We further conduct extensive
experiments to evaluate current image editing baselines from multiple
dimensions including quantitative, qualitative, and human evaluations. The
results reveal the challenging nature of our dataset and the gap between
current baselines and real-world editing needs.