ChatPaper.aiChatPaper

Edición de imágenes sin ajustes con fidelidad y capacidad de edición mediante un modelo unificado de difusión latente

Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model

April 8, 2025
Autores: Qi Mao, Lan Chen, Yuchao Gu, Mike Zheng Shou, Ming-Hsuan Yang
cs.AI

Resumen

Equilibrar la fidelidad y la capacidad de edición es esencial en la edición de imágenes basada en texto (TIE), donde los errores comúnmente resultan en problemas de sobreedición o subedición. Los métodos existentes suelen depender de inyecciones de atención para preservar la estructura y aprovechan las capacidades inherentes de alineación de texto de los modelos preentrenados de texto a imagen (T2I) para la edición, pero carecen de mecanismos explícitos y unificados para equilibrar adecuadamente estos dos objetivos. En este trabajo, presentamos UnifyEdit, un método sin ajuste que realiza una optimización del espacio latente de difusión para permitir una integración equilibrada de fidelidad y capacidad de edición dentro de un marco unificado. A diferencia de las inyecciones directas de atención, desarrollamos dos restricciones basadas en atención: una restricción de preservación de auto-atención (SA) para la fidelidad estructural, y una restricción de alineación de atención cruzada (CA) para mejorar la alineación del texto y la capacidad de edición. Sin embargo, aplicar ambas restricciones simultáneamente puede generar conflictos de gradiente, donde el dominio de una restricción resulta en sobreedición o subedición. Para abordar este desafío, introducimos un planificador de pasos de tiempo adaptativo que ajusta dinámicamente la influencia de estas restricciones, guiando el espacio latente de difusión hacia un equilibrio óptimo. Extensos experimentos cuantitativos y cualitativos validan la efectividad de nuestro enfoque, demostrando su superioridad en lograr un equilibrio robusto entre la preservación de la estructura y la alineación del texto en diversas tareas de edición, superando a otros métodos de vanguardia. El código fuente estará disponible en https://github.com/CUC-MIPG/UnifyEdit.
English
Balancing fidelity and editability is essential in text-based image editing (TIE), where failures commonly lead to over- or under-editing issues. Existing methods typically rely on attention injections for structure preservation and leverage the inherent text alignment capabilities of pre-trained text-to-image (T2I) models for editability, but they lack explicit and unified mechanisms to properly balance these two objectives. In this work, we introduce UnifyEdit, a tuning-free method that performs diffusion latent optimization to enable a balanced integration of fidelity and editability within a unified framework. Unlike direct attention injections, we develop two attention-based constraints: a self-attention (SA) preservation constraint for structural fidelity, and a cross-attention (CA) alignment constraint to enhance text alignment for improved editability. However, simultaneously applying both constraints can lead to gradient conflicts, where the dominance of one constraint results in over- or under-editing. To address this challenge, we introduce an adaptive time-step scheduler that dynamically adjusts the influence of these constraints, guiding the diffusion latent toward an optimal balance. Extensive quantitative and qualitative experiments validate the effectiveness of our approach, demonstrating its superiority in achieving a robust balance between structure preservation and text alignment across various editing tasks, outperforming other state-of-the-art methods. The source code will be available at https://github.com/CUC-MIPG/UnifyEdit.

Summary

AI-Generated Summary

PDF123April 9, 2025