ChatPaper.aiChatPaper

ConsistEdit: Edição Visual Livre de Treinamento Altamente Consistente e Preciso

ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

October 20, 2025
Autores: Zixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai
cs.AI

Resumo

Avanços recentes em métodos de controle de atenção sem treinamento têm possibilitado capacidades flexíveis e eficientes de edição guiada por texto para modelos de geração existentes. No entanto, as abordagens atuais enfrentam dificuldades em oferecer simultaneamente uma forte capacidade de edição enquanto mantêm a consistência com a fonte. Essa limitação torna-se particularmente crítica em edições de múltiplas rodadas e em vídeo, onde erros visuais podem se acumular ao longo do tempo. Além disso, a maioria dos métodos existentes impõe consistência global, o que limita sua capacidade de modificar atributos individuais, como textura, enquanto preserva outros, dificultando assim a edição refinada. Recentemente, a mudança arquitetônica de U-Net para MM-DiT trouxe melhorias significativas no desempenho generativo e introduziu um novo mecanismo para integrar modalidades de texto e visão. Esses avanços abrem caminho para superar desafios que métodos anteriores não conseguiram resolver. Por meio de uma análise aprofundada do MM-DiT, identificamos três insights-chave sobre seus mecanismos de atenção. Com base nisso, propomos o ConsistEdit, um novo método de controle de atenção especificamente adaptado para MM-DiT. O ConsistEdit incorpora controle de atenção apenas visual, fusão pré-atenção guiada por máscara e manipulação diferenciada dos tokens de consulta, chave e valor para produzir edições consistentes e alinhadas ao prompt. Experimentos extensivos demonstram que o ConsistEdit alcança desempenho de ponta em uma ampla gama de tarefas de edição de imagem e vídeo, incluindo cenários com consistência estrutural e sem consistência estrutural. Diferente de métodos anteriores, é a primeira abordagem a realizar edições em todas as etapas de inferência e camadas de atenção sem intervenção manual, aumentando significativamente a confiabilidade e a consistência, o que possibilita edições robustas de múltiplas rodadas e múltiplas regiões. Além disso, ele suporta ajuste progressivo da consistência estrutural, permitindo um controle mais refinado.
English
Recent advances in training-free attention control methods have enabled flexible and efficient text-guided editing capabilities for existing generation models. However, current approaches struggle to simultaneously deliver strong editing strength while preserving consistency with the source. This limitation becomes particularly critical in multi-round and video editing, where visual errors can accumulate over time. Moreover, most existing methods enforce global consistency, which limits their ability to modify individual attributes such as texture while preserving others, thereby hindering fine-grained editing. Recently, the architectural shift from U-Net to MM-DiT has brought significant improvements in generative performance and introduced a novel mechanism for integrating text and vision modalities. These advancements pave the way for overcoming challenges that previous methods failed to resolve. Through an in-depth analysis of MM-DiT, we identify three key insights into its attention mechanisms. Building on these, we propose ConsistEdit, a novel attention control method specifically tailored for MM-DiT. ConsistEdit incorporates vision-only attention control, mask-guided pre-attention fusion, and differentiated manipulation of the query, key, and value tokens to produce consistent, prompt-aligned edits. Extensive experiments demonstrate that ConsistEdit achieves state-of-the-art performance across a wide range of image and video editing tasks, including both structure-consistent and structure-inconsistent scenarios. Unlike prior methods, it is the first approach to perform editing across all inference steps and attention layers without handcraft, significantly enhancing reliability and consistency, which enables robust multi-round and multi-region editing. Furthermore, it supports progressive adjustment of structural consistency, enabling finer control.
PDF122October 21, 2025