ProEdit: Правильный подход к редактированию на основе инверсии через промпты
ProEdit: Inversion-based Editing From Prompts Done Right
December 26, 2025
Авторы: Zhi Ouyang, Dian Zheng, Xiao-Ming Wu, Jian-Jian Jiang, Kun-Yu Lin, Jingke Meng, Wei-Shi Zheng
cs.AI
Аннотация
Инверсионное визуальное редактирование предоставляет эффективный и не требующий обучения способ редактирования изображений или видео на основе пользовательских инструкций. Существующие методы обычно внедряют информацию исходного изображения в процессе сэмплирования для сохранения согласованности редактирования. Однако данная стратегия сэмплирования чрезмерно полагается на исходную информацию, что негативно влияет на правки в целевом изображении (например, не удается изменить атрибуты объекта, такие как поза, количество или цвет, в соответствии с инструкцией). В данной работе мы предлагаем метод ProEdit для решения этой проблемы как на уровне внимания, так и на латентном уровне. На уровне внимания мы представляем KV-mix — метод смешивания KV-признаков исходного и целевого изображений в редактируемой области, что снижает влияние исходного изображения на зону редактирования при сохранении согласованности фона. На латентном уровне мы предлагаем Latents-Shift — метод возмущения редактируемой области исходного латентного представления, устраняющий влияние инвертированного латентного кода на процесс сэмплирования. Многочисленные эксперименты на нескольких наборах данных по редактированию изображений и видео демонстрируют, что наш метод достигает состояния искусства (SOTA). Кроме того, наша разработка является plug-and-play решением, которое может быть легко интегрировано в существующие инверсионные и редакционные методы, такие как RF-Solver, FireFlow и UniEdit.
English
Inversion-based visual editing provides an effective and training-free way to edit an image or a video based on user instructions. Existing methods typically inject source image information during the sampling process to maintain editing consistency. However, this sampling strategy overly relies on source information, which negatively affects the edits in the target image (e.g., failing to change the subject's atributes like pose, number, or color as instructed). In this work, we propose ProEdit to address this issue both in the attention and the latent aspects. In the attention aspect, we introduce KV-mix, which mixes KV features of the source and the target in the edited region, mitigating the influence of the source image on the editing region while maintaining background consistency. In the latent aspect, we propose Latents-Shift, which perturbs the edited region of the source latent, eliminating the influence of the inverted latent on the sampling. Extensive experiments on several image and video editing benchmarks demonstrate that our method achieves SOTA performance. In addition, our design is plug-and-play, which can be seamlessly integrated into existing inversion and editing methods, such as RF-Solver, FireFlow and UniEdit.