MagicBrush: Een handmatig geannoteerde dataset voor instructiegestuurd beeldbewerken

Samenvatting

Tekstgestuurd beeldbewerking is in het dagelijks leven veelgevraagd, variërend van persoonlijk gebruik tot professionele toepassingen zoals Photoshop. Bestaande methoden zijn echter ofwel zero-shot of getraind op een automatisch gegenereerde dataset, die veel ruis bevat. Daarom is er in de praktijk nog steeds veel handmatige afstemming nodig om gewenste resultaten te bereiken. Om dit probleem aan te pakken, introduceren we MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), de eerste grootschalige, handmatig geannoteerde dataset voor instructiegestuurde bewerking van echte afbeeldingen, die diverse scenario's omvat: enkelvoudige, meervoudige, masker-geleverde en masker-vrije bewerkingen. MagicBrush bestaat uit meer dan 10K handmatig geannoteerde triples (bronafbeelding, instructie, doelafbeelding), die het trainen van grootschalige tekstgestuurde beeldbewerkingsmodellen ondersteunen. We fine-tunen InstructPix2Pix op MagicBrush en laten zien dat het nieuwe model aanzienlijk betere afbeeldingen kan produceren volgens menselijke evaluatie. We voeren verder uitgebreide experimenten uit om huidige beeldbewerkingsbaselines te evalueren vanuit meerdere dimensies, waaronder kwantitatieve, kwalitatieve en menselijke evaluaties. De resultaten onthullen de uitdagende aard van onze dataset en de kloof tussen huidige baselines en de behoeften van beeldbewerking in de praktijk.

English

Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triples (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.

MagicBrush: Een handmatig geannoteerde dataset voor instructiegestuurd beeldbewerken

MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

Samenvatting

Support