ChatPaper.aiChatPaper

ConsistEdit: 고도로 일관적이고 정밀한 학습 없는 시각적 편집

ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

October 20, 2025
저자: Zixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai
cs.AI

초록

최근 훈련이 필요 없는 주의 제어 방법의 발전으로 기존 생성 모델에 대한 유연하고 효율적인 텍스트 기반 편집 기능이 가능해졌다. 그러나 현재의 접근법은 강력한 편집 강도와 원본과의 일관성을 동시에 제공하는 데 어려움을 겪고 있다. 이러한 한계는 특히 다중 라운드 및 비디오 편집에서 시각적 오류가 시간이 지남에 따라 누적될 수 있기 때문에 더욱 중요해진다. 또한, 대부분의 기존 방법은 전역 일관성을 강제하므로 텍스처와 같은 개별 속성을 수정하면서 다른 속성을 보존하는 능력이 제한되어 세밀한 편집을 방해한다. 최근 U-Net에서 MM-DiT로의 아키텍처 전환은 생성 성능의 상당한 개선을 가져왔으며 텍스트와 시각 모달리티를 통합하는 새로운 메커니즘을 도입했다. 이러한 발전은 이전 방법들이 해결하지 못한 과제를 극복할 수 있는 길을 열어준다. MM-DiT에 대한 심층 분석을 통해 우리는 그 주의 메커니즘에 대한 세 가지 주요 통찰을 도출했다. 이를 바탕으로 MM-DiT에 특화된 새로운 주의 제어 방법인 ConsistEdit를 제안한다. ConsistEdit는 시각 전용 주의 제어, 마스크 기반 사전 주의 융합, 그리고 쿼리, 키, 값 토큰의 차별화된 조작을 통합하여 일관적이고 프롬프트에 맞는 편집을 생성한다. 광범위한 실험을 통해 ConsistEdit가 구조 일관 및 비일관 시나리오를 포함한 다양한 이미지 및 비디오 편집 작업에서 최첨단 성능을 달성함을 입증했다. 이전 방법과 달리, 이 방법은 모든 추론 단계와 주의 계층에서 수작업 없이 편집을 수행하는 최초의 접근법으로, 신뢰성과 일관성을 크게 향상시켜 견고한 다중 라운드 및 다중 영역 편집을 가능하게 한다. 또한, 구조적 일관성의 점진적 조정을 지원하여 더 세밀한 제어를 가능하게 한다.
English
Recent advances in training-free attention control methods have enabled flexible and efficient text-guided editing capabilities for existing generation models. However, current approaches struggle to simultaneously deliver strong editing strength while preserving consistency with the source. This limitation becomes particularly critical in multi-round and video editing, where visual errors can accumulate over time. Moreover, most existing methods enforce global consistency, which limits their ability to modify individual attributes such as texture while preserving others, thereby hindering fine-grained editing. Recently, the architectural shift from U-Net to MM-DiT has brought significant improvements in generative performance and introduced a novel mechanism for integrating text and vision modalities. These advancements pave the way for overcoming challenges that previous methods failed to resolve. Through an in-depth analysis of MM-DiT, we identify three key insights into its attention mechanisms. Building on these, we propose ConsistEdit, a novel attention control method specifically tailored for MM-DiT. ConsistEdit incorporates vision-only attention control, mask-guided pre-attention fusion, and differentiated manipulation of the query, key, and value tokens to produce consistent, prompt-aligned edits. Extensive experiments demonstrate that ConsistEdit achieves state-of-the-art performance across a wide range of image and video editing tasks, including both structure-consistent and structure-inconsistent scenarios. Unlike prior methods, it is the first approach to perform editing across all inference steps and attention layers without handcraft, significantly enhancing reliability and consistency, which enables robust multi-round and multi-region editing. Furthermore, it supports progressive adjustment of structural consistency, enabling finer control.
PDF122October 21, 2025