ChatPaper.aiChatPaper

Édition d'images sans réglage avec fidélité et éditiabilité via un modèle de diffusion latente unifié

Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model

April 8, 2025
Auteurs: Qi Mao, Lan Chen, Yuchao Gu, Mike Zheng Shou, Ming-Hsuan Yang
cs.AI

Résumé

L'équilibre entre fidélité et éditabilité est essentiel dans l'édition d'images basée sur le texte (TIE), où les échecs conduisent souvent à des problèmes de sur- ou sous-édition. Les méthodes existantes reposent généralement sur des injections d'attention pour préserver la structure et exploitent les capacités d'alignement textuel inhérentes aux modèles pré-entraînés de texte à image (T2I) pour l'éditabilité, mais elles manquent de mécanismes explicites et unifiés pour équilibrer correctement ces deux objectifs. Dans ce travail, nous présentons UnifyEdit, une méthode sans ajustement qui effectue une optimisation latente de diffusion pour permettre une intégration équilibrée de la fidélité et de l'éditabilité dans un cadre unifié. Contrairement aux injections d'attention directes, nous développons deux contraintes basées sur l'attention : une contrainte de préservation de l'auto-attention (SA) pour la fidélité structurelle, et une contrainte d'alignement de l'attention croisée (CA) pour améliorer l'alignement textuel et ainsi l'éditabilité. Cependant, l'application simultanée de ces deux contraintes peut entraîner des conflits de gradients, où la dominance d'une contrainte résulte en une sur- ou sous-édition. Pour résoudre ce problème, nous introduisons un planificateur adaptatif d'étapes temporelles qui ajuste dynamiquement l'influence de ces contraintes, guidant la latence de diffusion vers un équilibre optimal. Des expériences quantitatives et qualitatives approfondies valident l'efficacité de notre approche, démontrant sa supériorité dans l'atteinte d'un équilibre robuste entre la préservation de la structure et l'alignement textuel à travers diverses tâches d'édition, surpassant d'autres méthodes de pointe. Le code source sera disponible à l'adresse https://github.com/CUC-MIPG/UnifyEdit.
English
Balancing fidelity and editability is essential in text-based image editing (TIE), where failures commonly lead to over- or under-editing issues. Existing methods typically rely on attention injections for structure preservation and leverage the inherent text alignment capabilities of pre-trained text-to-image (T2I) models for editability, but they lack explicit and unified mechanisms to properly balance these two objectives. In this work, we introduce UnifyEdit, a tuning-free method that performs diffusion latent optimization to enable a balanced integration of fidelity and editability within a unified framework. Unlike direct attention injections, we develop two attention-based constraints: a self-attention (SA) preservation constraint for structural fidelity, and a cross-attention (CA) alignment constraint to enhance text alignment for improved editability. However, simultaneously applying both constraints can lead to gradient conflicts, where the dominance of one constraint results in over- or under-editing. To address this challenge, we introduce an adaptive time-step scheduler that dynamically adjusts the influence of these constraints, guiding the diffusion latent toward an optimal balance. Extensive quantitative and qualitative experiments validate the effectiveness of our approach, demonstrating its superiority in achieving a robust balance between structure preservation and text alignment across various editing tasks, outperforming other state-of-the-art methods. The source code will be available at https://github.com/CUC-MIPG/UnifyEdit.

Summary

AI-Generated Summary

PDF123April 9, 2025