ChatPaper.aiChatPaper

PhotoDoodle: Aprendizaje de edición artística de imágenes a partir de datos de pares con pocos ejemplos

PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data

February 20, 2025
Autores: Shijie Huang, Yiren Song, Yuxuan Zhang, Hailong Guo, Xueyin Wang, Mike Zheng Shou, Jiaming Liu
cs.AI

Resumen

Presentamos PhotoDoodle, un novedoso marco de edición de imágenes diseñado para facilitar el dibujo sobre fotografías, permitiendo a los artistas superponer elementos decorativos en las imágenes. El dibujo sobre fotos es un desafío porque los elementos insertados deben integrarse de manera fluida con el fondo, lo que requiere una mezcla realista, alineación de perspectiva y coherencia contextual. Además, el fondo debe preservarse sin distorsión, y el estilo único del artista debe capturarse eficientemente a partir de datos de entrenamiento limitados. Estos requisitos no son abordados por métodos anteriores que se centran principalmente en la transferencia de estilo global o la restauración regional. El método propuesto, PhotoDoodle, emplea una estrategia de entrenamiento en dos etapas. Inicialmente, entrenamos un modelo de edición de imágenes de propósito general, OmniEditor, utilizando datos a gran escala. Posteriormente, ajustamos este modelo con EditLoRA utilizando un pequeño conjunto de datos curado por el artista, compuesto por pares de imágenes antes y después, para capturar estilos y técnicas de edición distintivos. Para mejorar la consistencia en los resultados generados, introducimos un mecanismo de reutilización de codificación posicional. Además, publicamos un conjunto de datos de PhotoDoodle que incluye seis estilos de alta calidad. Experimentos exhaustivos demuestran el rendimiento avanzado y la robustez de nuestro método en la edición personalizada de imágenes, abriendo nuevas posibilidades para la creación artística.
English
We introduce PhotoDoodle, a novel image editing framework designed to facilitate photo doodling by enabling artists to overlay decorative elements onto photographs. Photo doodling is challenging because the inserted elements must appear seamlessly integrated with the background, requiring realistic blending, perspective alignment, and contextual coherence. Additionally, the background must be preserved without distortion, and the artist's unique style must be captured efficiently from limited training data. These requirements are not addressed by previous methods that primarily focus on global style transfer or regional inpainting. The proposed method, PhotoDoodle, employs a two-stage training strategy. Initially, we train a general-purpose image editing model, OmniEditor, using large-scale data. Subsequently, we fine-tune this model with EditLoRA using a small, artist-curated dataset of before-and-after image pairs to capture distinct editing styles and techniques. To enhance consistency in the generated results, we introduce a positional encoding reuse mechanism. Additionally, we release a PhotoDoodle dataset featuring six high-quality styles. Extensive experiments demonstrate the advanced performance and robustness of our method in customized image editing, opening new possibilities for artistic creation.

Summary

AI-Generated Summary

PDF426February 24, 2025