ConsistEdit: Hochgradig konsistente und präzise trainingsfreie visuelle Bearbeitung
ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
October 20, 2025
papers.authors: Zixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai
cs.AI
papers.abstract
Jüngste Fortschritte in trainierungsfreien Methoden zur Aufmerksamkeitssteuerung haben flexible und effiziente textgesteuerte Bearbeitungsfähigkeiten für bestehende Generationsmodelle ermöglicht. Allerdings haben aktuelle Ansätze Schwierigkeiten, gleichzeitig eine starke Bearbeitungsintensität zu liefern und die Konsistenz mit der Quelle zu bewahren. Diese Einschränkung wird insbesondere bei mehrfachen Bearbeitungsrunden und der Videobearbeitung kritisch, bei denen sich visuelle Fehler im Laufe der Zeit anhäufen können. Darüber hinaus erzwingen die meisten bestehenden Methoden eine globale Konsistenz, was ihre Fähigkeit einschränkt, einzelne Attribute wie Textur zu ändern, während andere erhalten bleiben, wodurch die fein abgestimmte Bearbeitung behindert wird. Kürzlich hat der architektonische Wechsel von U-Net zu MM-DiT erhebliche Verbesserungen in der generativen Leistung gebracht und einen neuartigen Mechanismus zur Integration von Text- und Bildmodalitäten eingeführt. Diese Fortschritte ebnen den Weg zur Überwindung von Herausforderungen, die frühere Methoden nicht lösen konnten. Durch eine eingehende Analyse von MM-DiT identifizieren wir drei zentrale Erkenntnisse über seine Aufmerksamkeitsmechanismen. Aufbauend auf diesen schlagen wir ConsistEdit vor, eine neuartige Methode zur Aufmerksamkeitssteuerung, die speziell für MM-DiT entwickelt wurde. ConsistEdit integriert eine rein visuelle Aufmerksamkeitssteuerung, eine maskengeführte Vor-Aufmerksamkeitsfusion und eine differenzierte Manipulation der Query-, Key- und Value-Tokens, um konsistente, promptausgerichtete Bearbeitungen zu erzeugen. Umfangreiche Experimente zeigen, dass ConsistEdit in einer Vielzahl von Bild- und Videobearbeitungsaufgaben, einschließlich sowohl strukturkonsistenter als auch strukturinkonsistenter Szenarien, Spitzenleistungen erzielt. Im Gegensatz zu früheren Methoden ist es der erste Ansatz, der Bearbeitungen über alle Inferenzschritte und Aufmerksamkeitsebenen hinweg ohne manuelle Anpassungen durchführt, was die Zuverlässigkeit und Konsistenz erheblich verbessert und robuste mehrfache Bearbeitungsrunden und Mehrfachbereichsbearbeitungen ermöglicht. Darüber hinaus unterstützt es die progressive Anpassung der strukturellen Konsistenz, was eine feinere Kontrolle ermöglicht.
English
Recent advances in training-free attention control methods have enabled
flexible and efficient text-guided editing capabilities for existing generation
models. However, current approaches struggle to simultaneously deliver strong
editing strength while preserving consistency with the source. This limitation
becomes particularly critical in multi-round and video editing, where visual
errors can accumulate over time. Moreover, most existing methods enforce global
consistency, which limits their ability to modify individual attributes such as
texture while preserving others, thereby hindering fine-grained editing.
Recently, the architectural shift from U-Net to MM-DiT has brought significant
improvements in generative performance and introduced a novel mechanism for
integrating text and vision modalities. These advancements pave the way for
overcoming challenges that previous methods failed to resolve. Through an
in-depth analysis of MM-DiT, we identify three key insights into its attention
mechanisms. Building on these, we propose ConsistEdit, a novel attention
control method specifically tailored for MM-DiT. ConsistEdit incorporates
vision-only attention control, mask-guided pre-attention fusion, and
differentiated manipulation of the query, key, and value tokens to produce
consistent, prompt-aligned edits. Extensive experiments demonstrate that
ConsistEdit achieves state-of-the-art performance across a wide range of image
and video editing tasks, including both structure-consistent and
structure-inconsistent scenarios. Unlike prior methods, it is the first
approach to perform editing across all inference steps and attention layers
without handcraft, significantly enhancing reliability and consistency, which
enables robust multi-round and multi-region editing. Furthermore, it supports
progressive adjustment of structural consistency, enabling finer control.