EditCrafter: Беспараметричное редактирование изображений высокого разрешения с помощью предобученной диффузионной модели
EditCrafter: Tuning-free High-Resolution Image Editing via Pretrained Diffusion Model
April 11, 2026
Авторы: Kunho Kim, Sumin Seo, Yongjun Cho, Hyungjin Chung
cs.AI
Аннотация
Мы представляем EditCrafter — метод редактирования изображений высокого разрешения, который работает без дообучения, используя предобученные диффузионные модели для генерации изображений по тексту (T2I) для обработки изображений с разрешениями, значительно превышающими те, что использовались при обучении. Использование генеративных априорных знаний крупномасштабных T2I диффузионных моделей позволяет разрабатывать широкий спектр новых приложений для генерации и редактирования. Хотя на основе диффузионных моделей было предложено множество методов редактирования изображений, демонстрирующих результаты высокого качества, их сложно применять к изображениям с произвольными соотношениями сторон или более высокими разрешениями, поскольку они работают только с разрешениями, используемыми при обучении (512x512 или 1024x1024). Наивное применение покомпонентного редактирования приводит к нереалистичным структурам объектов и их повторению. Для решения этих проблем мы представляем EditCrafter — простой, но эффективный конвейер редактирования. EditCrafter работает, сначала выполняя мозаичную инверсию, которая сохраняет исходную идентичность входного изображения высокого разрешения. Мы также предлагаем метод управления с ограничениями на многообразии с демпфированием шума (NDCFG++), адаптированный для редактирования изображений высокого разрешения из инвертированного латентного представления. Наши эксперименты показывают, что EditCrafter позволяет достигать впечатляющих результатов редактирования для различных разрешений без тонкой настройки и оптимизации.
English
We propose EditCrafter, a high-resolution image editing method that operates without tuning, leveraging pretrained text-to-image (T2I) diffusion models to process images at resolutions significantly exceeding those used during training. Leveraging the generative priors of large-scale T2I diffusion models enables the development of a wide array of novel generation and editing applications. Although numerous image editing methods have been proposed based on diffusion models and exhibit high-quality editing results, they are difficult to apply to images with arbitrary aspect ratios or higher resolutions since they only work at the training resolutions (512x512 or 1024x1024). Naively applying patch-wise editing fails with unrealistic object structures and repetition. To address these challenges, we introduce EditCrafter, a simple yet effective editing pipeline. EditCrafter operates by first performing tiled inversion, which preserves the original identity of the input high-resolution image. We further propose a noise-damped manifold-constrained classifier-free guidance (NDCFG++) that is tailored for high resolution image editing from the inverted latent. Our experiments show that the our EditCrafter can achieve impressive editing results across various resolutions without fine-tuning and optimization.