Bildbearbeitung ohne Feinabstimmung mit Treue und Bearbeitbarkeit durch ein vereinheitlichtes latentes Diffusionsmodell
Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model
April 8, 2025
Autoren: Qi Mao, Lan Chen, Yuchao Gu, Mike Zheng Shou, Ming-Hsuan Yang
cs.AI
Zusammenfassung
Die Balance zwischen Treue und Bearbeitbarkeit ist entscheidend bei der textbasierten Bildbearbeitung (TIE), bei der Fehler häufig zu Über- oder Unterbearbeitung führen. Bestehende Methoden stützen sich typischerweise auf Attention-Injektionen zur Strukturerhaltung und nutzen die inhärenten Textausrichtungsfähigkeiten vortrainierter Text-zu-Bild (T2I)-Modelle für die Bearbeitbarkeit, ihnen fehlen jedoch explizite und einheitliche Mechanismen, um diese beiden Ziele angemessen auszubalancieren. In dieser Arbeit stellen wir UnifyEdit vor, eine tuningfreie Methode, die eine Diffusion-Latent-Optimierung durchführt, um eine ausgewogene Integration von Treue und Bearbeitbarkeit innerhalb eines einheitlichen Frameworks zu ermöglichen. Im Gegensatz zu direkten Attention-Injektionen entwickeln wir zwei Attention-basierte Beschränkungen: eine Self-Attention (SA)-Erhaltungsbeschränkung für strukturelle Treue und eine Cross-Attention (CA)-Ausrichtungsbeschränkung zur Verbesserung der Textausrichtung für eine gesteigerte Bearbeitbarkeit. Die gleichzeitige Anwendung beider Beschränkungen kann jedoch zu Gradientenkonflikten führen, bei denen die Dominanz einer Beschränkung zu Über- oder Unterbearbeitung führt. Um diese Herausforderung zu bewältigen, führen wir einen adaptiven Zeitschritt-Scheduler ein, der den Einfluss dieser Beschränkungen dynamisch anpasst und das Diffusion-Latent in Richtung eines optimalen Gleichgewichts lenkt. Umfangreiche quantitative und qualitative Experimente bestätigen die Wirksamkeit unseres Ansatzes und demonstrieren seine Überlegenheit bei der Erreichung einer robusten Balance zwischen Strukturerhaltung und Textausrichtung über verschiedene Bearbeitungsaufgaben hinweg, wobei er andere state-of-the-art Methoden übertrifft. Der Quellcode wird unter https://github.com/CUC-MIPG/UnifyEdit verfügbar sein.
English
Balancing fidelity and editability is essential in text-based image editing
(TIE), where failures commonly lead to over- or under-editing issues. Existing
methods typically rely on attention injections for structure preservation and
leverage the inherent text alignment capabilities of pre-trained text-to-image
(T2I) models for editability, but they lack explicit and unified mechanisms to
properly balance these two objectives. In this work, we introduce UnifyEdit, a
tuning-free method that performs diffusion latent optimization to enable a
balanced integration of fidelity and editability within a unified framework.
Unlike direct attention injections, we develop two attention-based constraints:
a self-attention (SA) preservation constraint for structural fidelity, and a
cross-attention (CA) alignment constraint to enhance text alignment for
improved editability. However, simultaneously applying both constraints can
lead to gradient conflicts, where the dominance of one constraint results in
over- or under-editing. To address this challenge, we introduce an adaptive
time-step scheduler that dynamically adjusts the influence of these
constraints, guiding the diffusion latent toward an optimal balance. Extensive
quantitative and qualitative experiments validate the effectiveness of our
approach, demonstrating its superiority in achieving a robust balance between
structure preservation and text alignment across various editing tasks,
outperforming other state-of-the-art methods. The source code will be available
at https://github.com/CUC-MIPG/UnifyEdit.Summary
AI-Generated Summary