EditCrafter: Abstimmungsfreie Bearbeitung hochauflösender Bilder mittels vortrainiertem Diffusionsmodell

Zusammenfassung

Wir stellen EditCrafter vor, eine Methode zur Bearbeitung hochauflösender Bilder, die ohne Anpassung (Tuning) auskommt und vortrainierte Text-zu-Bild (T2I) Diffusionsmodelle nutzt, um Bilder in Auflösungen zu verarbeiten, die die während des Trainings verwendeten deutlich überschreiten. Die Nutzung der generativen A-priori-Informationen großskaliger T2I-Diffusionsmodelle ermöglicht die Entwicklung einer Vielzahl neuartiger Generierungs- und Bearbeitungsanwendungen. Obwohl bereits zahlreiche Bildbearbeitungsmethoden auf der Basis von Diffusionsmodellen vorgeschlagen wurden und hochwertige Bearbeitungsergebnisse zeigen, sind sie schwierig auf Bilder mit beliebigen Seitenverhältnissen oder höheren Auflösungen anzuwenden, da sie nur mit den Trainingsauflösungen (512x512 oder 1024x1024) funktionieren. Eine naive anwendungsbezogene patchweise Bearbeitung scheitert mit unrealistischen Objektstrukturen und Wiederholungen. Um diese Herausforderungen zu bewältigen, führen wir EditCrafter ein, eine einfache, aber effektive Bearbeitungspipeline. EditCrafter arbeitet, indem zunächst eine gekachelte Inversion durchgeführt wird, die die ursprüngliche Identität des hochauflösenden Eingabebildes bewahrt. Wir schlagen weiterhin eine rauschgedämpfte, manifold-beschränkte Classifier-Free Guidance (NDCFG++) vor, die speziell für die Bearbeitung hochauflösender Bilder aus dem invertierten Latent Space zugeschnitten ist. Unsere Experimente zeigen, dass unser EditCrafter beeindruckende Bearbeitungsergebnisse über verschiedene Auflösungen hinweg ohne Feinabstimmung und Optimierung erzielen kann.

English

We propose EditCrafter, a high-resolution image editing method that operates without tuning, leveraging pretrained text-to-image (T2I) diffusion models to process images at resolutions significantly exceeding those used during training. Leveraging the generative priors of large-scale T2I diffusion models enables the development of a wide array of novel generation and editing applications. Although numerous image editing methods have been proposed based on diffusion models and exhibit high-quality editing results, they are difficult to apply to images with arbitrary aspect ratios or higher resolutions since they only work at the training resolutions (512x512 or 1024x1024). Naively applying patch-wise editing fails with unrealistic object structures and repetition. To address these challenges, we introduce EditCrafter, a simple yet effective editing pipeline. EditCrafter operates by first performing tiled inversion, which preserves the original identity of the input high-resolution image. We further propose a noise-damped manifold-constrained classifier-free guidance (NDCFG++) that is tailored for high resolution image editing from the inverted latent. Our experiments show that the our EditCrafter can achieve impressive editing results across various resolutions without fine-tuning and optimization.

EditCrafter: Abstimmungsfreie Bearbeitung hochauflösender Bilder mittels vortrainiertem Diffusionsmodell

EditCrafter: Tuning-free High-Resolution Image Editing via Pretrained Diffusion Model

Zusammenfassung

Support