ChatPaper.aiChatPaper

PhotoDoodle: Обучение художественному редактированию изображений на основе данных с малым количеством парных примеров

PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data

February 20, 2025
Авторы: Shijie Huang, Yiren Song, Yuxuan Zhang, Hailong Guo, Xueyin Wang, Mike Zheng Shou, Jiaming Liu
cs.AI

Аннотация

Мы представляем PhotoDoodle — новый фреймворк для редактирования изображений, предназначенный для облегчения процесса фото-дудлинга, позволяя художникам накладывать декоративные элементы на фотографии. Фото-дудлинг является сложной задачей, так как вставленные элементы должны выглядеть естественно интегрированными с фоном, что требует реалистичного смешивания, выравнивания перспективы и контекстуальной согласованности. Кроме того, фон должен сохраняться без искажений, а уникальный стиль художника должен эффективно захватываться из ограниченного набора обучающих данных. Эти требования не учитываются предыдущими методами, которые в основном сосредоточены на глобальном переносе стиля или региональном восстановлении изображений. Предлагаемый метод, PhotoDoodle, использует двухэтапную стратегию обучения. Сначала мы обучаем универсальную модель редактирования изображений, OmniEditor, используя большие объемы данных. Затем мы дообучаем эту модель с помощью EditLoRA, используя небольшой набор данных, курируемый художником, состоящий из пар изображений "до и после", чтобы захватить уникальные стили и техники редактирования. Для повышения согласованности генерируемых результатов мы вводим механизм повторного использования позиционного кодирования. Кроме того, мы публикуем набор данных PhotoDoodle, включающий шесть высококачественных стилей. Многочисленные эксперименты демонстрируют передовую производительность и устойчивость нашего метода в персонализированном редактировании изображений, открывая новые возможности для художественного творчества.
English
We introduce PhotoDoodle, a novel image editing framework designed to facilitate photo doodling by enabling artists to overlay decorative elements onto photographs. Photo doodling is challenging because the inserted elements must appear seamlessly integrated with the background, requiring realistic blending, perspective alignment, and contextual coherence. Additionally, the background must be preserved without distortion, and the artist's unique style must be captured efficiently from limited training data. These requirements are not addressed by previous methods that primarily focus on global style transfer or regional inpainting. The proposed method, PhotoDoodle, employs a two-stage training strategy. Initially, we train a general-purpose image editing model, OmniEditor, using large-scale data. Subsequently, we fine-tune this model with EditLoRA using a small, artist-curated dataset of before-and-after image pairs to capture distinct editing styles and techniques. To enhance consistency in the generated results, we introduce a positional encoding reuse mechanism. Additionally, we release a PhotoDoodle dataset featuring six high-quality styles. Extensive experiments demonstrate the advanced performance and robustness of our method in customized image editing, opening new possibilities for artistic creation.

Summary

AI-Generated Summary

PDF426February 24, 2025