MagicBrush: Ein manuell annotierter Datensatz für instruktionsgesteuerte Bildbearbeitung

Zusammenfassung

Textgesteuerte Bildbearbeitung wird im täglichen Leben vielfach benötigt, sowohl für den persönlichen Gebrauch als auch für professionelle Anwendungen wie Photoshop. Bisherige Methoden sind jedoch entweder Zero-Shot oder auf einem automatisch synthetisierten Datensatz trainiert, der eine hohe Menge an Rauschen enthält. Daher erfordern sie in der Praxis immer noch viel manuelle Anpassungen, um zufriedenstellende Ergebnisse zu erzielen. Um dieses Problem zu lösen, stellen wir MagicBrush (https://osu-nlp-group.github.io/MagicBrush/) vor, den ersten groß angelegten, manuell annotierten Datensatz für instruktionsgesteuerte Bearbeitung realer Bilder, der verschiedene Szenarien abdeckt: Einzel- und Mehrfachbearbeitungen sowie Bearbeitungen mit und ohne Masken. MagicBrush umfasst über 10.000 manuell annotierte Tripel (Quellbild, Anweisung, Zielbild), die das Training groß angelegter Modelle für textgesteuerte Bildbearbeitung unterstützen. Wir feintunen InstructPix2Pix auf MagicBrush und zeigen, dass das neue Modell laut menschlicher Bewertung deutlich bessere Bilder erzeugen kann. Darüber hinaus führen wir umfangreiche Experimente durch, um aktuelle Baselines der Bildbearbeitung aus mehreren Dimensionen zu bewerten, einschließlich quantitativer, qualitativer und menschlicher Bewertungen. Die Ergebnisse verdeutlichen die anspruchsvolle Natur unseres Datensatzes und die Lücke zwischen den aktuellen Baselines und den Anforderungen der realen Bildbearbeitung.

English

Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triples (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.

MagicBrush: Ein manuell annotierter Datensatz für instruktionsgesteuerte Bildbearbeitung

MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

Zusammenfassung

Support