MagicBrush : Un ensemble de données annoté manuellement pour l'édition d'images guidée par instructions
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing
June 16, 2023
Auteurs: Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su
cs.AI
Résumé
L'édition d'images guidée par texte est largement nécessaire dans la vie quotidienne, allant d'un usage personnel à des applications professionnelles telles que Photoshop. Cependant, les méthodes existantes sont soit zero-shot, soit entraînées sur un ensemble de données synthétisé automatiquement, qui contient un volume élevé de bruit. Ainsi, elles nécessitent encore beaucoup de réglages manuels pour produire des résultats souhaitables en pratique. Pour résoudre ce problème, nous introduisons MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), le premier ensemble de données à grande échelle annoté manuellement pour l'édition d'images réelles guidée par instructions, couvrant divers scénarios : édition en un seul tour, en plusieurs tours, avec masque fourni et sans masque. MagicBrush comprend plus de 10 000 triplets annotés manuellement (image source, instruction, image cible), ce qui permet d'entraîner des modèles d'édition d'images guidée par texte à grande échelle. Nous affinons InstructPix2Pix sur MagicBrush et montrons que le nouveau modèle peut produire des images bien meilleures selon l'évaluation humaine. Nous menons en outre des expériences approfondies pour évaluer les modèles de référence actuels en édition d'images sous plusieurs dimensions, notamment quantitatives, qualitatives et humaines. Les résultats révèlent la nature complexe de notre ensemble de données et l'écart entre les modèles de référence actuels et les besoins réels en matière d'édition.
English
Text-guided image editing is widely needed in daily life, ranging from
personal use to professional applications such as Photoshop. However, existing
methods are either zero-shot or trained on an automatically synthesized
dataset, which contains a high volume of noise. Thus, they still require lots
of manual tuning to produce desirable outcomes in practice. To address this
issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/),
the first large-scale, manually annotated dataset for instruction-guided real
image editing that covers diverse scenarios: single-turn, multi-turn,
mask-provided, and mask-free editing. MagicBrush comprises over 10K manually
annotated triples (source image, instruction, target image), which supports
trainining large-scale text-guided image editing models. We fine-tune
InstructPix2Pix on MagicBrush and show that the new model can produce much
better images according to human evaluation. We further conduct extensive
experiments to evaluate current image editing baselines from multiple
dimensions including quantitative, qualitative, and human evaluations. The
results reveal the challenging nature of our dataset and the gap between
current baselines and real-world editing needs.