ConsistEdit: Edición Visual Altamente Consistente y Precisa sin Entrenamiento
ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
October 20, 2025
Autores: Zixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai
cs.AI
Resumen
Los avances recientes en métodos de control de atención sin entrenamiento han permitido capacidades de edición guiada por texto flexibles y eficientes para los modelos de generación existentes. Sin embargo, los enfoques actuales luchan por ofrecer simultáneamente una fuerte capacidad de edición mientras mantienen la coherencia con la fuente. Esta limitación se vuelve particularmente crítica en la edición de múltiples rondas y de video, donde los errores visuales pueden acumularse con el tiempo. Además, la mayoría de los métodos existentes imponen una coherencia global, lo que limita su capacidad para modificar atributos individuales, como la textura, mientras preservan otros, obstaculizando así la edición de grano fino. Recientemente, el cambio arquitectónico de U-Net a MM-DiT ha traído mejoras significativas en el rendimiento generativo e introdujo un mecanismo novedoso para integrar las modalidades de texto y visión. Estos avances allanan el camino para superar desafíos que los métodos anteriores no lograron resolver. A través de un análisis en profundidad de MM-DiT, identificamos tres ideas clave sobre sus mecanismos de atención. Basándonos en estas, proponemos ConsistEdit, un método novedoso de control de atención específicamente diseñado para MM-DiT. ConsistEdit incorpora control de atención exclusivamente visual, fusión pre-atención guiada por máscara y manipulación diferenciada de los tokens de consulta, clave y valor para producir ediciones coherentes y alineadas con el prompt. Experimentos extensos demuestran que ConsistEdit alcanza un rendimiento de vanguardia en una amplia gama de tareas de edición de imágenes y videos, incluyendo escenarios tanto de coherencia estructural como de incoherencia estructural. A diferencia de métodos anteriores, es el primer enfoque que realiza ediciones en todos los pasos de inferencia y capas de atención sin intervención manual, mejorando significativamente la fiabilidad y coherencia, lo que permite una edición robusta de múltiples rondas y múltiples regiones. Además, admite el ajuste progresivo de la coherencia estructural, permitiendo un control más fino.
English
Recent advances in training-free attention control methods have enabled
flexible and efficient text-guided editing capabilities for existing generation
models. However, current approaches struggle to simultaneously deliver strong
editing strength while preserving consistency with the source. This limitation
becomes particularly critical in multi-round and video editing, where visual
errors can accumulate over time. Moreover, most existing methods enforce global
consistency, which limits their ability to modify individual attributes such as
texture while preserving others, thereby hindering fine-grained editing.
Recently, the architectural shift from U-Net to MM-DiT has brought significant
improvements in generative performance and introduced a novel mechanism for
integrating text and vision modalities. These advancements pave the way for
overcoming challenges that previous methods failed to resolve. Through an
in-depth analysis of MM-DiT, we identify three key insights into its attention
mechanisms. Building on these, we propose ConsistEdit, a novel attention
control method specifically tailored for MM-DiT. ConsistEdit incorporates
vision-only attention control, mask-guided pre-attention fusion, and
differentiated manipulation of the query, key, and value tokens to produce
consistent, prompt-aligned edits. Extensive experiments demonstrate that
ConsistEdit achieves state-of-the-art performance across a wide range of image
and video editing tasks, including both structure-consistent and
structure-inconsistent scenarios. Unlike prior methods, it is the first
approach to perform editing across all inference steps and attention layers
without handcraft, significantly enhancing reliability and consistency, which
enables robust multi-round and multi-region editing. Furthermore, it supports
progressive adjustment of structural consistency, enabling finer control.