PhotoDoodle: Aprendendo Edição Artística de Imagens a partir de Dados Pareados de Poucos Exemplos
PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data
February 20, 2025
Autores: Shijie Huang, Yiren Song, Yuxuan Zhang, Hailong Guo, Xueyin Wang, Mike Zheng Shou, Jiaming Liu
cs.AI
Resumo
Apresentamos o PhotoDoodle, uma nova estrutura de edição de imagens projetada para facilitar o desenho em fotografias, permitindo que artistas sobreponham elementos decorativos em fotos. O desenho em fotos é desafiador porque os elementos inseridos devem parecer perfeitamente integrados ao fundo, exigindo uma mesclagem realista, alinhamento de perspectiva e coerência contextual. Além disso, o fundo deve ser preservado sem distorções, e o estilo único do artista deve ser capturado de forma eficiente a partir de dados de treinamento limitados. Esses requisitos não são abordados por métodos anteriores que se concentram principalmente na transferência de estilo global ou na restauração regional. O método proposto, PhotoDoodle, emprega uma estratégia de treinamento em duas etapas. Inicialmente, treinamos um modelo de edição de imagens de propósito geral, o OmniEditor, usando dados em larga escala. Posteriormente, ajustamos esse modelo com o EditLoRA utilizando um pequeno conjunto de dados curados pelo artista, composto por pares de imagens "antes e depois", para capturar estilos e técnicas de edição distintos. Para melhorar a consistência nos resultados gerados, introduzimos um mecanismo de reutilização de codificação posicional. Adicionalmente, disponibilizamos um conjunto de dados PhotoDoodle que apresenta seis estilos de alta qualidade. Experimentos extensivos demonstram o desempenho avançado e a robustez do nosso método na edição personalizada de imagens, abrindo novas possibilidades para a criação artística.
English
We introduce PhotoDoodle, a novel image editing framework designed to
facilitate photo doodling by enabling artists to overlay decorative elements
onto photographs. Photo doodling is challenging because the inserted elements
must appear seamlessly integrated with the background, requiring realistic
blending, perspective alignment, and contextual coherence. Additionally, the
background must be preserved without distortion, and the artist's unique style
must be captured efficiently from limited training data. These requirements are
not addressed by previous methods that primarily focus on global style transfer
or regional inpainting. The proposed method, PhotoDoodle, employs a two-stage
training strategy. Initially, we train a general-purpose image editing model,
OmniEditor, using large-scale data. Subsequently, we fine-tune this model with
EditLoRA using a small, artist-curated dataset of before-and-after image pairs
to capture distinct editing styles and techniques. To enhance consistency in
the generated results, we introduce a positional encoding reuse mechanism.
Additionally, we release a PhotoDoodle dataset featuring six high-quality
styles. Extensive experiments demonstrate the advanced performance and
robustness of our method in customized image editing, opening new possibilities
for artistic creation.Summary
AI-Generated Summary