ChatPaper.aiChatPaper

PhotoDoodle : Apprentissage de l'édition artistique d'images à partir de données appariées en few-shot

PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data

February 20, 2025
Auteurs: Shijie Huang, Yiren Song, Yuxuan Zhang, Hailong Guo, Xueyin Wang, Mike Zheng Shou, Jiaming Liu
cs.AI

Résumé

Nous présentons PhotoDoodle, un nouveau cadre d'édition d'images conçu pour faciliter le dessin sur photo en permettant aux artistes de superposer des éléments décoratifs sur des photographies. Le dessin sur photo est un défi, car les éléments insérés doivent apparaître parfaitement intégrés à l'arrière-plan, nécessitant un mélange réaliste, un alignement de perspective et une cohérence contextuelle. De plus, l'arrière-plan doit être préservé sans distorsion, et le style unique de l'artiste doit être capturé efficacement à partir de données d'entraînement limitées. Ces exigences ne sont pas prises en compte par les méthodes précédentes qui se concentrent principalement sur le transfert de style global ou la restauration régionale. La méthode proposée, PhotoDoodle, utilise une stratégie d'entraînement en deux étapes. Initialement, nous entraînons un modèle d'édition d'image à usage général, OmniEditor, en utilisant des données à grande échelle. Ensuite, nous affinons ce modèle avec EditLoRA en utilisant un petit ensemble de données d'images avant-après, soigneusement sélectionnées par l'artiste, pour capturer des styles et techniques d'édition distincts. Pour améliorer la cohérence des résultats générés, nous introduisons un mécanisme de réutilisation d'encodage positionnel. De plus, nous publions un ensemble de données PhotoDoodle présentant six styles de haute qualité. Des expériences approfondies démontrent les performances avancées et la robustesse de notre méthode dans l'édition d'images personnalisée, ouvrant de nouvelles possibilités pour la création artistique.
English
We introduce PhotoDoodle, a novel image editing framework designed to facilitate photo doodling by enabling artists to overlay decorative elements onto photographs. Photo doodling is challenging because the inserted elements must appear seamlessly integrated with the background, requiring realistic blending, perspective alignment, and contextual coherence. Additionally, the background must be preserved without distortion, and the artist's unique style must be captured efficiently from limited training data. These requirements are not addressed by previous methods that primarily focus on global style transfer or regional inpainting. The proposed method, PhotoDoodle, employs a two-stage training strategy. Initially, we train a general-purpose image editing model, OmniEditor, using large-scale data. Subsequently, we fine-tune this model with EditLoRA using a small, artist-curated dataset of before-and-after image pairs to capture distinct editing styles and techniques. To enhance consistency in the generated results, we introduce a positional encoding reuse mechanism. Additionally, we release a PhotoDoodle dataset featuring six high-quality styles. Extensive experiments demonstrate the advanced performance and robustness of our method in customized image editing, opening new possibilities for artistic creation.

Summary

AI-Generated Summary

PDF426February 24, 2025