PhotoDoodle: Apprendimento del Fotoritocco Artistico da Dati Pairwise con Pochi Esempi
PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data
February 20, 2025
Autori: Shijie Huang, Yiren Song, Yuxuan Zhang, Hailong Guo, Xueyin Wang, Mike Zheng Shou, Jiaming Liu
cs.AI
Abstract
Presentiamo PhotoDoodle, un innovativo framework di editing delle immagini progettato per facilitare il photo doodling, consentendo agli artisti di sovrapporre elementi decorativi alle fotografie. Il photo doodling è una sfida perché gli elementi inseriti devono apparire perfettamente integrati con lo sfondo, richiedendo una fusione realistica, un allineamento prospettico e una coerenza contestuale. Inoltre, lo sfondo deve essere preservato senza distorsioni e lo stile unico dell'artista deve essere catturato in modo efficiente da un limitato set di dati di addestramento. Questi requisiti non sono affrontati dai metodi precedenti che si concentrano principalmente sul trasferimento di stile globale o sull'inpainting regionale. Il metodo proposto, PhotoDoodle, utilizza una strategia di addestramento in due fasi. Inizialmente, addestriamo un modello di editing delle immagini generico, OmniEditor, utilizzando dati su larga scala. Successivamente, ottimizziamo questo modello con EditLoRA utilizzando un piccolo set di dati curato dall'artista di coppie di immagini prima e dopo, per catturare stili e tecniche di editing distinti. Per migliorare la coerenza nei risultati generati, introduciamo un meccanismo di riutilizzo della codifica posizionale. Inoltre, rilasciamo un dataset PhotoDoodle che presenta sei stili di alta qualità. Esperimenti estesi dimostrano le prestazioni avanzate e la robustezza del nostro metodo nell'editing personalizzato delle immagini, aprendo nuove possibilità per la creazione artistica.
English
We introduce PhotoDoodle, a novel image editing framework designed to
facilitate photo doodling by enabling artists to overlay decorative elements
onto photographs. Photo doodling is challenging because the inserted elements
must appear seamlessly integrated with the background, requiring realistic
blending, perspective alignment, and contextual coherence. Additionally, the
background must be preserved without distortion, and the artist's unique style
must be captured efficiently from limited training data. These requirements are
not addressed by previous methods that primarily focus on global style transfer
or regional inpainting. The proposed method, PhotoDoodle, employs a two-stage
training strategy. Initially, we train a general-purpose image editing model,
OmniEditor, using large-scale data. Subsequently, we fine-tune this model with
EditLoRA using a small, artist-curated dataset of before-and-after image pairs
to capture distinct editing styles and techniques. To enhance consistency in
the generated results, we introduce a positional encoding reuse mechanism.
Additionally, we release a PhotoDoodle dataset featuring six high-quality
styles. Extensive experiments demonstrate the advanced performance and
robustness of our method in customized image editing, opening new possibilities
for artistic creation.Summary
AI-Generated Summary