ChatPaper.aiChatPaper

ConsistEdit: Zeer Consistente en Precise Visuele Bewerking zonder Training

ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

October 20, 2025
Auteurs: Zixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai
cs.AI

Samenvatting

Recente vooruitgang in trainingsvrije aandachtcontrolemethoden heeft flexibele en efficiënte tekstgestuurde bewerkingsmogelijkheden mogelijk gemaakt voor bestaande generatiemodellen. Huidige benaderingen hebben echter moeite om tegelijkertijd sterke bewerkingskracht te leveren en consistentie met de bron te behouden. Deze beperking wordt vooral kritiek bij meervoudige en videobewerkingen, waar visuele fouten zich in de loop van de tijd kunnen opstapelen. Bovendien handhaven de meeste bestaande methoden globale consistentie, wat hun vermogen beperkt om individuele attributen zoals textuur aan te passen terwijl andere behouden blijven, waardoor fijnmazige bewerking wordt belemmerd. Recentelijk heeft de architectonische verschuiving van U-Net naar MM-DiT aanzienlijke verbeteringen in generatieve prestaties gebracht en een nieuw mechanisme geïntroduceerd voor de integratie van tekst- en visiemodaliteiten. Deze vooruitgang opent de weg voor het overwinnen van uitdagingen waar eerdere methoden niet in slaagden. Door een diepgaande analyse van MM-DiT identificeren we drie belangrijke inzichten in zijn aandachtmechanismen. Op basis hiervan stellen we ConsistEdit voor, een nieuwe aandachtcontrolemethode specifiek afgestemd op MM-DiT. ConsistEdit omvat visie-alleen aandachtcontrole, maskergestuurde pre-attentiefusie en gedifferentieerde manipulatie van de query-, key- en value-tokens om consistente, prompt-uitgelijnde bewerkingen te produceren. Uitgebreide experimenten tonen aan dat ConsistEdit state-of-the-art prestaties bereikt in een breed scala aan beeld- en videobewerkingstaken, inclusief zowel structuurconsistente als structuurinconsistente scenario's. In tegenstelling tot eerdere methoden is het de eerste benadering die bewerkingen uitvoert over alle inferentiestappen en aandachtlagen zonder handmatige aanpassingen, wat de betrouwbaarheid en consistentie aanzienlijk verbetert en robuuste meervoudige en meervoudige regio-bewerkingen mogelijk maakt. Bovendien ondersteunt het progressieve aanpassing van structurele consistentie, waardoor fijnere controle mogelijk wordt.
English
Recent advances in training-free attention control methods have enabled flexible and efficient text-guided editing capabilities for existing generation models. However, current approaches struggle to simultaneously deliver strong editing strength while preserving consistency with the source. This limitation becomes particularly critical in multi-round and video editing, where visual errors can accumulate over time. Moreover, most existing methods enforce global consistency, which limits their ability to modify individual attributes such as texture while preserving others, thereby hindering fine-grained editing. Recently, the architectural shift from U-Net to MM-DiT has brought significant improvements in generative performance and introduced a novel mechanism for integrating text and vision modalities. These advancements pave the way for overcoming challenges that previous methods failed to resolve. Through an in-depth analysis of MM-DiT, we identify three key insights into its attention mechanisms. Building on these, we propose ConsistEdit, a novel attention control method specifically tailored for MM-DiT. ConsistEdit incorporates vision-only attention control, mask-guided pre-attention fusion, and differentiated manipulation of the query, key, and value tokens to produce consistent, prompt-aligned edits. Extensive experiments demonstrate that ConsistEdit achieves state-of-the-art performance across a wide range of image and video editing tasks, including both structure-consistent and structure-inconsistent scenarios. Unlike prior methods, it is the first approach to perform editing across all inference steps and attention layers without handcraft, significantly enhancing reliability and consistency, which enables robust multi-round and multi-region editing. Furthermore, it supports progressive adjustment of structural consistency, enabling finer control.
PDF122October 21, 2025