ConsistEdit: Edición Visual Altamente Consistente y Precisa sin Entrenamiento

Resumen

Los avances recientes en métodos de control de atención sin entrenamiento han permitido capacidades de edición guiada por texto flexibles y eficientes para los modelos de generación existentes. Sin embargo, los enfoques actuales luchan por ofrecer simultáneamente una fuerte capacidad de edición mientras mantienen la coherencia con la fuente. Esta limitación se vuelve particularmente crítica en la edición de múltiples rondas y de video, donde los errores visuales pueden acumularse con el tiempo. Además, la mayoría de los métodos existentes imponen una coherencia global, lo que limita su capacidad para modificar atributos individuales, como la textura, mientras preservan otros, obstaculizando así la edición de grano fino. Recientemente, el cambio arquitectónico de U-Net a MM-DiT ha traído mejoras significativas en el rendimiento generativo e introdujo un mecanismo novedoso para integrar las modalidades de texto y visión. Estos avances allanan el camino para superar desafíos que los métodos anteriores no lograron resolver. A través de un análisis en profundidad de MM-DiT, identificamos tres ideas clave sobre sus mecanismos de atención. Basándonos en estas, proponemos ConsistEdit, un método novedoso de control de atención específicamente diseñado para MM-DiT. ConsistEdit incorpora control de atención exclusivamente visual, fusión pre-atención guiada por máscara y manipulación diferenciada de los tokens de consulta, clave y valor para producir ediciones coherentes y alineadas con el prompt. Experimentos extensos demuestran que ConsistEdit alcanza un rendimiento de vanguardia en una amplia gama de tareas de edición de imágenes y videos, incluyendo escenarios tanto de coherencia estructural como de incoherencia estructural. A diferencia de métodos anteriores, es el primer enfoque que realiza ediciones en todos los pasos de inferencia y capas de atención sin intervención manual, mejorando significativamente la fiabilidad y coherencia, lo que permite una edición robusta de múltiples rondas y múltiples regiones. Además, admite el ajuste progresivo de la coherencia estructural, permitiendo un control más fino.

English

Recent advances in training-free attention control methods have enabled flexible and efficient text-guided editing capabilities for existing generation models. However, current approaches struggle to simultaneously deliver strong editing strength while preserving consistency with the source. This limitation becomes particularly critical in multi-round and video editing, where visual errors can accumulate over time. Moreover, most existing methods enforce global consistency, which limits their ability to modify individual attributes such as texture while preserving others, thereby hindering fine-grained editing. Recently, the architectural shift from U-Net to MM-DiT has brought significant improvements in generative performance and introduced a novel mechanism for integrating text and vision modalities. These advancements pave the way for overcoming challenges that previous methods failed to resolve. Through an in-depth analysis of MM-DiT, we identify three key insights into its attention mechanisms. Building on these, we propose ConsistEdit, a novel attention control method specifically tailored for MM-DiT. ConsistEdit incorporates vision-only attention control, mask-guided pre-attention fusion, and differentiated manipulation of the query, key, and value tokens to produce consistent, prompt-aligned edits. Extensive experiments demonstrate that ConsistEdit achieves state-of-the-art performance across a wide range of image and video editing tasks, including both structure-consistent and structure-inconsistent scenarios. Unlike prior methods, it is the first approach to perform editing across all inference steps and attention layers without handcraft, significantly enhancing reliability and consistency, which enables robust multi-round and multi-region editing. Furthermore, it supports progressive adjustment of structural consistency, enabling finer control.

ConsistEdit: Edición Visual Altamente Consistente y Precisa sin Entrenamiento

ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

Resumen

Support