ChatPaper.aiChatPaper

PhotoDoodle: Künstlerische Bildbearbeitung durch Lernen aus wenigen paarweisen Beispielen

PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data

February 20, 2025
Autoren: Shijie Huang, Yiren Song, Yuxuan Zhang, Hailong Guo, Xueyin Wang, Mike Zheng Shou, Jiaming Liu
cs.AI

Zusammenfassung

Wir stellen PhotoDoodle vor, ein neuartiges Bildbearbeitungsframework, das entwickelt wurde, um das Fotodoodling zu erleichtern, indem es Künstlern ermöglicht, dekorative Elemente auf Fotos zu überlagern. Fotodoodling ist eine Herausforderung, da die eingefügten Elemente nahtlos in den Hintergrund integriert erscheinen müssen, was eine realistische Einbettung, Perspektivenausrichtung und kontextuelle Kohärenz erfordert. Zudem muss der Hintergrund ohne Verzerrung erhalten bleiben, und der einzigartige Stil des Künstlers muss effizient aus begrenzten Trainingsdaten erfasst werden. Diese Anforderungen werden von bisherigen Methoden, die sich hauptsächlich auf globalen Stiltransfer oder regionale Inpainting konzentrieren, nicht adressiert. Die vorgeschlagene Methode, PhotoDoodle, verwendet eine zweistufige Trainingsstrategie. Zunächst trainieren wir ein allgemeines Bildbearbeitungsmodell, OmniEditor, mit umfangreichen Daten. Anschließend verfeinern wir dieses Modell mit EditLoRA unter Verwendung eines kleinen, vom Künstler kuratierten Datensatzes von Vorher-Nachher-Bildpaaren, um spezifische Bearbeitungsstile und -techniken zu erfassen. Um die Konsistenz der generierten Ergebnisse zu verbessern, führen wir einen Mechanismus zur Wiederverwendung von Positionskodierungen ein. Zudem veröffentlichen wir einen PhotoDoodle-Datensatz mit sechs hochwertigen Stilen. Umfangreiche Experimente demonstrieren die fortgeschrittene Leistung und Robustheit unserer Methode in der individuellen Bildbearbeitung und eröffnen neue Möglichkeiten für künstlerische Kreationen.
English
We introduce PhotoDoodle, a novel image editing framework designed to facilitate photo doodling by enabling artists to overlay decorative elements onto photographs. Photo doodling is challenging because the inserted elements must appear seamlessly integrated with the background, requiring realistic blending, perspective alignment, and contextual coherence. Additionally, the background must be preserved without distortion, and the artist's unique style must be captured efficiently from limited training data. These requirements are not addressed by previous methods that primarily focus on global style transfer or regional inpainting. The proposed method, PhotoDoodle, employs a two-stage training strategy. Initially, we train a general-purpose image editing model, OmniEditor, using large-scale data. Subsequently, we fine-tune this model with EditLoRA using a small, artist-curated dataset of before-and-after image pairs to capture distinct editing styles and techniques. To enhance consistency in the generated results, we introduce a positional encoding reuse mechanism. Additionally, we release a PhotoDoodle dataset featuring six high-quality styles. Extensive experiments demonstrate the advanced performance and robustness of our method in customized image editing, opening new possibilities for artistic creation.

Summary

AI-Generated Summary

PDF426February 24, 2025