MagicBrush: Ein manuell annotierter Datensatz für instruktionsgesteuerte Bildbearbeitung
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing
June 16, 2023
Autoren: Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su
cs.AI
Zusammenfassung
Textgesteuerte Bildbearbeitung wird im täglichen Leben vielfach benötigt, sowohl für den persönlichen Gebrauch als auch für professionelle Anwendungen wie Photoshop. Bisherige Methoden sind jedoch entweder Zero-Shot oder auf einem automatisch synthetisierten Datensatz trainiert, der eine hohe Menge an Rauschen enthält. Daher erfordern sie in der Praxis immer noch viel manuelle Anpassungen, um zufriedenstellende Ergebnisse zu erzielen. Um dieses Problem zu lösen, stellen wir MagicBrush (https://osu-nlp-group.github.io/MagicBrush/) vor, den ersten groß angelegten, manuell annotierten Datensatz für instruktionsgesteuerte Bearbeitung realer Bilder, der verschiedene Szenarien abdeckt: Einzel- und Mehrfachbearbeitungen sowie Bearbeitungen mit und ohne Masken. MagicBrush umfasst über 10.000 manuell annotierte Tripel (Quellbild, Anweisung, Zielbild), die das Training groß angelegter Modelle für textgesteuerte Bildbearbeitung unterstützen. Wir feintunen InstructPix2Pix auf MagicBrush und zeigen, dass das neue Modell laut menschlicher Bewertung deutlich bessere Bilder erzeugen kann. Darüber hinaus führen wir umfangreiche Experimente durch, um aktuelle Baselines der Bildbearbeitung aus mehreren Dimensionen zu bewerten, einschließlich quantitativer, qualitativer und menschlicher Bewertungen. Die Ergebnisse verdeutlichen die anspruchsvolle Natur unseres Datensatzes und die Lücke zwischen den aktuellen Baselines und den Anforderungen der realen Bildbearbeitung.
English
Text-guided image editing is widely needed in daily life, ranging from
personal use to professional applications such as Photoshop. However, existing
methods are either zero-shot or trained on an automatically synthesized
dataset, which contains a high volume of noise. Thus, they still require lots
of manual tuning to produce desirable outcomes in practice. To address this
issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/),
the first large-scale, manually annotated dataset for instruction-guided real
image editing that covers diverse scenarios: single-turn, multi-turn,
mask-provided, and mask-free editing. MagicBrush comprises over 10K manually
annotated triples (source image, instruction, target image), which supports
trainining large-scale text-guided image editing models. We fine-tune
InstructPix2Pix on MagicBrush and show that the new model can produce much
better images according to human evaluation. We further conduct extensive
experiments to evaluate current image editing baselines from multiple
dimensions including quantitative, qualitative, and human evaluations. The
results reveal the challenging nature of our dataset and the gap between
current baselines and real-world editing needs.