ConsistEdit: Modifica Visiva Altamente Coerente e Precisa Senza Addestramento
ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
October 20, 2025
Autori: Zixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai
cs.AI
Abstract
I recenti progressi nei metodi di controllo dell'attenzione senza addestramento hanno reso possibile capacità di editing guidato da testo flessibili ed efficienti per i modelli di generazione esistenti. Tuttavia, gli approcci attuali faticano a garantire contemporaneamente una forte capacità di modifica e la coerenza con la sorgente. Questa limitazione diventa particolarmente critica nell'editing multi-round e video, dove gli errori visivi possono accumularsi nel tempo. Inoltre, la maggior parte dei metodi esistenti impone una coerenza globale, limitando la capacità di modificare attributi individuali come la texture preservando gli altri, ostacolando così l'editing fine. Recentemente, il passaggio architetturale da U-Net a MM-DiT ha portato significativi miglioramenti nelle prestazioni generative e ha introdotto un nuovo meccanismo per integrare le modalità testo e visione. Questi progressi aprono la strada al superamento delle sfide che i metodi precedenti non sono riusciti a risolvere. Attraverso un'analisi approfondita di MM-DiT, identifichiamo tre intuizioni chiave sui suoi meccanismi di attenzione. Basandoci su queste, proponiamo ConsistEdit, un nuovo metodo di controllo dell'attenzione specificamente progettato per MM-DiT. ConsistEdit incorpora il controllo dell'attenzione solo visiva, la fusione pre-attention guidata da maschera e la manipolazione differenziata dei token query, key e value per produrre modifiche coerenti e allineate al prompt. Esperimenti estensivi dimostrano che ConsistEdit raggiunge prestazioni all'avanguardia in un'ampia gamma di task di editing di immagini e video, inclusi scenari con coerenza strutturale e non strutturale. A differenza dei metodi precedenti, è il primo approccio a eseguire editing in tutti i passi di inferenza e i livelli di attenzione senza intervento manuale, migliorando significativamente affidabilità e coerenza, il che consente un editing multi-round e multi-regione robusto. Inoltre, supporta la regolazione progressiva della coerenza strutturale, consentendo un controllo più fine.
English
Recent advances in training-free attention control methods have enabled
flexible and efficient text-guided editing capabilities for existing generation
models. However, current approaches struggle to simultaneously deliver strong
editing strength while preserving consistency with the source. This limitation
becomes particularly critical in multi-round and video editing, where visual
errors can accumulate over time. Moreover, most existing methods enforce global
consistency, which limits their ability to modify individual attributes such as
texture while preserving others, thereby hindering fine-grained editing.
Recently, the architectural shift from U-Net to MM-DiT has brought significant
improvements in generative performance and introduced a novel mechanism for
integrating text and vision modalities. These advancements pave the way for
overcoming challenges that previous methods failed to resolve. Through an
in-depth analysis of MM-DiT, we identify three key insights into its attention
mechanisms. Building on these, we propose ConsistEdit, a novel attention
control method specifically tailored for MM-DiT. ConsistEdit incorporates
vision-only attention control, mask-guided pre-attention fusion, and
differentiated manipulation of the query, key, and value tokens to produce
consistent, prompt-aligned edits. Extensive experiments demonstrate that
ConsistEdit achieves state-of-the-art performance across a wide range of image
and video editing tasks, including both structure-consistent and
structure-inconsistent scenarios. Unlike prior methods, it is the first
approach to perform editing across all inference steps and attention layers
without handcraft, significantly enhancing reliability and consistency, which
enables robust multi-round and multi-region editing. Furthermore, it supports
progressive adjustment of structural consistency, enabling finer control.