ConsistEdit: Высокосогласованное и точное визуальное редактирование без обучения
ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
October 20, 2025
Авторы: Zixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai
cs.AI
Аннотация
Последние достижения в методах управления вниманием без обучения позволили обеспечить гибкие и эффективные возможности редактирования на основе текста для существующих моделей генерации. Однако современные подходы сталкиваются с трудностями в одновременном достижении высокой силы редактирования и сохранения согласованности с исходным материалом. Это ограничение становится особенно критичным в многократном и видео-редактировании, где визуальные ошибки могут накапливаться со временем. Более того, большинство существующих методов обеспечивают глобальную согласованность, что ограничивает их способность изменять отдельные атрибуты, такие как текстура, сохраняя при этом другие, тем самым затрудняя детализированное редактирование. Недавний архитектурный переход от U-Net к MM-DiT привел к значительным улучшениям в генеративной производительности и представил новый механизм интеграции текстовых и визуальных модальностей. Эти достижения открывают путь к преодолению проблем, которые предыдущие методы не смогли решить. В результате детального анализа MM-DiT мы выделяем три ключевых аспекта, касающихся его механизмов внимания. На основе этих аспектов мы предлагаем ConsistEdit — новый метод управления вниманием, специально разработанный для MM-DiT. ConsistEdit включает управление вниманием только на основе визуальных данных, предварительное слияние с использованием масок и дифференцированное управление токенами запроса, ключа и значения для создания согласованных и соответствующих запросу правок. Многочисленные эксперименты демонстрируют, что ConsistEdit достигает наилучших результатов в широком спектре задач редактирования изображений и видео, включая как сценарии с сохранением структуры, так и без нее. В отличие от предыдущих методов, это первый подход, который выполняет редактирование на всех этапах вывода и слоях внимания без ручной настройки, значительно повышая надежность и согласованность, что позволяет реализовать устойчивое многократное и многорегиональное редактирование. Кроме того, он поддерживает прогрессивную настройку структурной согласованности, обеспечивая более точный контроль.
English
Recent advances in training-free attention control methods have enabled
flexible and efficient text-guided editing capabilities for existing generation
models. However, current approaches struggle to simultaneously deliver strong
editing strength while preserving consistency with the source. This limitation
becomes particularly critical in multi-round and video editing, where visual
errors can accumulate over time. Moreover, most existing methods enforce global
consistency, which limits their ability to modify individual attributes such as
texture while preserving others, thereby hindering fine-grained editing.
Recently, the architectural shift from U-Net to MM-DiT has brought significant
improvements in generative performance and introduced a novel mechanism for
integrating text and vision modalities. These advancements pave the way for
overcoming challenges that previous methods failed to resolve. Through an
in-depth analysis of MM-DiT, we identify three key insights into its attention
mechanisms. Building on these, we propose ConsistEdit, a novel attention
control method specifically tailored for MM-DiT. ConsistEdit incorporates
vision-only attention control, mask-guided pre-attention fusion, and
differentiated manipulation of the query, key, and value tokens to produce
consistent, prompt-aligned edits. Extensive experiments demonstrate that
ConsistEdit achieves state-of-the-art performance across a wide range of image
and video editing tasks, including both structure-consistent and
structure-inconsistent scenarios. Unlike prior methods, it is the first
approach to perform editing across all inference steps and attention layers
without handcraft, significantly enhancing reliability and consistency, which
enables robust multi-round and multi-region editing. Furthermore, it supports
progressive adjustment of structural consistency, enabling finer control.