PhotoDoodle : Apprentissage de l'édition artistique d'images à partir de données appariées en few-shot
PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data
February 20, 2025
Auteurs: Shijie Huang, Yiren Song, Yuxuan Zhang, Hailong Guo, Xueyin Wang, Mike Zheng Shou, Jiaming Liu
cs.AI
Résumé
Nous présentons PhotoDoodle, un nouveau cadre d'édition d'images conçu pour faciliter le dessin sur photo en permettant aux artistes de superposer des éléments décoratifs sur des photographies. Le dessin sur photo est un défi, car les éléments insérés doivent apparaître parfaitement intégrés à l'arrière-plan, nécessitant un mélange réaliste, un alignement de perspective et une cohérence contextuelle. De plus, l'arrière-plan doit être préservé sans distorsion, et le style unique de l'artiste doit être capturé efficacement à partir de données d'entraînement limitées. Ces exigences ne sont pas prises en compte par les méthodes précédentes qui se concentrent principalement sur le transfert de style global ou la restauration régionale. La méthode proposée, PhotoDoodle, utilise une stratégie d'entraînement en deux étapes. Initialement, nous entraînons un modèle d'édition d'image à usage général, OmniEditor, en utilisant des données à grande échelle. Ensuite, nous affinons ce modèle avec EditLoRA en utilisant un petit ensemble de données d'images avant-après, soigneusement sélectionnées par l'artiste, pour capturer des styles et techniques d'édition distincts. Pour améliorer la cohérence des résultats générés, nous introduisons un mécanisme de réutilisation d'encodage positionnel. De plus, nous publions un ensemble de données PhotoDoodle présentant six styles de haute qualité. Des expériences approfondies démontrent les performances avancées et la robustesse de notre méthode dans l'édition d'images personnalisée, ouvrant de nouvelles possibilités pour la création artistique.
English
We introduce PhotoDoodle, a novel image editing framework designed to
facilitate photo doodling by enabling artists to overlay decorative elements
onto photographs. Photo doodling is challenging because the inserted elements
must appear seamlessly integrated with the background, requiring realistic
blending, perspective alignment, and contextual coherence. Additionally, the
background must be preserved without distortion, and the artist's unique style
must be captured efficiently from limited training data. These requirements are
not addressed by previous methods that primarily focus on global style transfer
or regional inpainting. The proposed method, PhotoDoodle, employs a two-stage
training strategy. Initially, we train a general-purpose image editing model,
OmniEditor, using large-scale data. Subsequently, we fine-tune this model with
EditLoRA using a small, artist-curated dataset of before-and-after image pairs
to capture distinct editing styles and techniques. To enhance consistency in
the generated results, we introduce a positional encoding reuse mechanism.
Additionally, we release a PhotoDoodle dataset featuring six high-quality
styles. Extensive experiments demonstrate the advanced performance and
robustness of our method in customized image editing, opening new possibilities
for artistic creation.Summary
AI-Generated Summary