ChatPaper.aiChatPaper

Bildbearbeitung ohne Feinabstimmung mit Treue und Bearbeitbarkeit durch ein vereinheitlichtes latentes Diffusionsmodell

Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model

April 8, 2025
Autoren: Qi Mao, Lan Chen, Yuchao Gu, Mike Zheng Shou, Ming-Hsuan Yang
cs.AI

Zusammenfassung

Die Balance zwischen Treue und Bearbeitbarkeit ist entscheidend bei der textbasierten Bildbearbeitung (TIE), bei der Fehler häufig zu Über- oder Unterbearbeitung führen. Bestehende Methoden stützen sich typischerweise auf Attention-Injektionen zur Strukturerhaltung und nutzen die inhärenten Textausrichtungsfähigkeiten vortrainierter Text-zu-Bild (T2I)-Modelle für die Bearbeitbarkeit, ihnen fehlen jedoch explizite und einheitliche Mechanismen, um diese beiden Ziele angemessen auszubalancieren. In dieser Arbeit stellen wir UnifyEdit vor, eine tuningfreie Methode, die eine Diffusion-Latent-Optimierung durchführt, um eine ausgewogene Integration von Treue und Bearbeitbarkeit innerhalb eines einheitlichen Frameworks zu ermöglichen. Im Gegensatz zu direkten Attention-Injektionen entwickeln wir zwei Attention-basierte Beschränkungen: eine Self-Attention (SA)-Erhaltungsbeschränkung für strukturelle Treue und eine Cross-Attention (CA)-Ausrichtungsbeschränkung zur Verbesserung der Textausrichtung für eine gesteigerte Bearbeitbarkeit. Die gleichzeitige Anwendung beider Beschränkungen kann jedoch zu Gradientenkonflikten führen, bei denen die Dominanz einer Beschränkung zu Über- oder Unterbearbeitung führt. Um diese Herausforderung zu bewältigen, führen wir einen adaptiven Zeitschritt-Scheduler ein, der den Einfluss dieser Beschränkungen dynamisch anpasst und das Diffusion-Latent in Richtung eines optimalen Gleichgewichts lenkt. Umfangreiche quantitative und qualitative Experimente bestätigen die Wirksamkeit unseres Ansatzes und demonstrieren seine Überlegenheit bei der Erreichung einer robusten Balance zwischen Strukturerhaltung und Textausrichtung über verschiedene Bearbeitungsaufgaben hinweg, wobei er andere state-of-the-art Methoden übertrifft. Der Quellcode wird unter https://github.com/CUC-MIPG/UnifyEdit verfügbar sein.
English
Balancing fidelity and editability is essential in text-based image editing (TIE), where failures commonly lead to over- or under-editing issues. Existing methods typically rely on attention injections for structure preservation and leverage the inherent text alignment capabilities of pre-trained text-to-image (T2I) models for editability, but they lack explicit and unified mechanisms to properly balance these two objectives. In this work, we introduce UnifyEdit, a tuning-free method that performs diffusion latent optimization to enable a balanced integration of fidelity and editability within a unified framework. Unlike direct attention injections, we develop two attention-based constraints: a self-attention (SA) preservation constraint for structural fidelity, and a cross-attention (CA) alignment constraint to enhance text alignment for improved editability. However, simultaneously applying both constraints can lead to gradient conflicts, where the dominance of one constraint results in over- or under-editing. To address this challenge, we introduce an adaptive time-step scheduler that dynamically adjusts the influence of these constraints, guiding the diffusion latent toward an optimal balance. Extensive quantitative and qualitative experiments validate the effectiveness of our approach, demonstrating its superiority in achieving a robust balance between structure preservation and text alignment across various editing tasks, outperforming other state-of-the-art methods. The source code will be available at https://github.com/CUC-MIPG/UnifyEdit.

Summary

AI-Generated Summary

PDF123April 9, 2025