ConsistEdit : Édition visuelle sans apprentissage, hautement cohérente et précise
ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
October 20, 2025
papers.authors: Zixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai
cs.AI
papers.abstract
Les récentes avancées dans les méthodes de contrôle d'attention sans apprentissage ont permis d'offrir des capacités de modification guidée par texte flexibles et efficaces pour les modèles de génération existants. Cependant, les approches actuelles peinent à concilier une forte puissance d'édition avec la préservation de la cohérence par rapport à la source. Cette limitation devient particulièrement critique dans les modifications multi-étapes et vidéo, où les erreurs visuelles peuvent s'accumuler au fil du temps. De plus, la plupart des méthodes existantes imposent une cohérence globale, ce qui limite leur capacité à modifier des attributs individuels, tels que la texture, tout en préservant d'autres, entravant ainsi l'édition fine. Récemment, le passage architectural de l'U-Net au MM-DiT a apporté des améliorations significatives dans les performances génératives et introduit un nouveau mécanisme d'intégration des modalités texte et vision. Ces avancées ouvrent la voie à la résolution de défis que les méthodes précédentes n'ont pas su surmonter. À travers une analyse approfondie du MM-DiT, nous identifions trois insights clés concernant ses mécanismes d'attention. Sur cette base, nous proposons ConsistEdit, une nouvelle méthode de contrôle d'attention spécifiquement conçue pour le MM-DiT. ConsistEdit intègre un contrôle d'attention purement visuel, une fusion pré-attention guidée par masque, et une manipulation différenciée des tokens de requête, clé et valeur pour produire des modifications cohérentes et alignées avec l'invite. Des expériences approfondies démontrent que ConsistEdit atteint des performances de pointe dans une large gamme de tâches d'édition d'images et de vidéos, incluant à la fois des scénarios cohérents et incohérents en termes de structure. Contrairement aux méthodes précédentes, il s'agit de la première approche à réaliser des modifications à travers toutes les étapes d'inférence et les couches d'attention sans intervention manuelle, améliorant ainsi significativement la fiabilité et la cohérence, ce qui permet une édition robuste multi-étapes et multi-régions. En outre, il permet un ajustement progressif de la cohérence structurelle, offrant un contrôle plus fin.
English
Recent advances in training-free attention control methods have enabled
flexible and efficient text-guided editing capabilities for existing generation
models. However, current approaches struggle to simultaneously deliver strong
editing strength while preserving consistency with the source. This limitation
becomes particularly critical in multi-round and video editing, where visual
errors can accumulate over time. Moreover, most existing methods enforce global
consistency, which limits their ability to modify individual attributes such as
texture while preserving others, thereby hindering fine-grained editing.
Recently, the architectural shift from U-Net to MM-DiT has brought significant
improvements in generative performance and introduced a novel mechanism for
integrating text and vision modalities. These advancements pave the way for
overcoming challenges that previous methods failed to resolve. Through an
in-depth analysis of MM-DiT, we identify three key insights into its attention
mechanisms. Building on these, we propose ConsistEdit, a novel attention
control method specifically tailored for MM-DiT. ConsistEdit incorporates
vision-only attention control, mask-guided pre-attention fusion, and
differentiated manipulation of the query, key, and value tokens to produce
consistent, prompt-aligned edits. Extensive experiments demonstrate that
ConsistEdit achieves state-of-the-art performance across a wide range of image
and video editing tasks, including both structure-consistent and
structure-inconsistent scenarios. Unlike prior methods, it is the first
approach to perform editing across all inference steps and attention layers
without handcraft, significantly enhancing reliability and consistency, which
enables robust multi-round and multi-region editing. Furthermore, it supports
progressive adjustment of structural consistency, enabling finer control.