Afstemmingsvrije beeldbewerking met betrouwbaarheid en aanpasbaarheid via een geïntegreerd latent diffusiemodel
Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model
April 8, 2025
Auteurs: Qi Mao, Lan Chen, Yuchao Gu, Mike Zheng Shou, Ming-Hsuan Yang
cs.AI
Samenvatting
Het balanceren van trouwheid en bewerkbaarheid is essentieel bij tekstgebaseerde beeldbewerking (TIE), waarbij fouten vaak leiden tot over- of onderbewerkingsproblemen. Bestaande methoden vertrouwen doorgaans op aandachtinjecties voor structuurbehoud en maken gebruik van de inherente tekstuitlijningsmogelijkheden van vooraf getrainde tekst-naar-beeld (T2I) modellen voor bewerkbaarheid, maar ze missen expliciete en geünificeerde mechanismen om deze twee doelstellingen goed in balans te brengen. In dit werk introduceren we UnifyEdit, een afstelmethode die diffusielatentoptimalisatie uitvoert om een gebalanceerde integratie van trouwheid en bewerkbaarheid binnen een geünificeerd raamwerk mogelijk te maken. In tegenstelling tot directe aandachtinjecties ontwikkelen we twee aandachtgebaseerde beperkingen: een zelfaandacht (SA) behoudsbeperking voor structurele trouwheid, en een kruisaandacht (CA) uitlijningsbeperking om tekstuitlijning te verbeteren voor betere bewerkbaarheid. Het gelijktijdig toepassen van beide beperkingen kan echter leiden tot gradiëntconflicten, waarbij de dominantie van één beperking resulteert in over- of onderbewerking. Om deze uitdaging aan te pakken, introduceren we een adaptieve tijdstapscheduler die de invloed van deze beperkingen dynamisch aanpast, waardoor de diffusielatent naar een optimale balans wordt geleid. Uitgebreide kwantitatieve en kwalitatieve experimenten valideren de effectiviteit van onze aanpak, waarbij de superioriteit ervan wordt aangetoond in het bereiken van een robuuste balans tussen structuurbehoud en tekstuitlijning bij verschillende bewerkingstaken, en andere state-of-the-art methoden overtreft. De broncode zal beschikbaar zijn op https://github.com/CUC-MIPG/UnifyEdit.
English
Balancing fidelity and editability is essential in text-based image editing
(TIE), where failures commonly lead to over- or under-editing issues. Existing
methods typically rely on attention injections for structure preservation and
leverage the inherent text alignment capabilities of pre-trained text-to-image
(T2I) models for editability, but they lack explicit and unified mechanisms to
properly balance these two objectives. In this work, we introduce UnifyEdit, a
tuning-free method that performs diffusion latent optimization to enable a
balanced integration of fidelity and editability within a unified framework.
Unlike direct attention injections, we develop two attention-based constraints:
a self-attention (SA) preservation constraint for structural fidelity, and a
cross-attention (CA) alignment constraint to enhance text alignment for
improved editability. However, simultaneously applying both constraints can
lead to gradient conflicts, where the dominance of one constraint results in
over- or under-editing. To address this challenge, we introduce an adaptive
time-step scheduler that dynamically adjusts the influence of these
constraints, guiding the diffusion latent toward an optimal balance. Extensive
quantitative and qualitative experiments validate the effectiveness of our
approach, demonstrating its superiority in achieving a robust balance between
structure preservation and text alignment across various editing tasks,
outperforming other state-of-the-art methods. The source code will be available
at https://github.com/CUC-MIPG/UnifyEdit.Summary
AI-Generated Summary