ChatPaper.aiChatPaper

SpotEdit: Выборочное редактирование областей в диффузионных трансформаторах

SpotEdit: Selective Region Editing in Diffusion Transformers

December 26, 2025
Авторы: Zhibin Qin, Zhenxiong Tan, Zeqing Wang, Songhua Liu, Xinchao Wang
cs.AI

Аннотация

Модели диффузионных трансформеров значительно продвинули редактирование изображений, кодируя условные изображения и интегрируя их в трансформерные слои. Однако большинство правок затрагивают лишь небольшие области, тогда как современные методы единообразно обрабатывают и удаляют шум со всех токенов на каждом временном шаге, что приводит к избыточным вычислениям и потенциальной деградации неизмененных участков. Это поднимает фундаментальный вопрос: действительно ли необходимо регенерировать каждую область при редактировании? Для решения этой проблемы мы предлагаем SpotEdit — не требующий обучения фреймворк для диффузионного редактирования, который выборочно обновляет только измененные области. SpotEdit состоит из двух ключевых компонентов: SpotSelector идентифицирует стабильные области через перцептивное сходство и пропускает их вычисления, повторно используя признаки условного изображения; SpotFusion адаптивно объединяет эти признаки с отредактированными токенами посредством механизма динамического слияния, сохраняя контекстную согласованность и качество редактирования. Благодаря сокращению ненужных вычислений и сохранению высокой точности в неизмененных областях, SpotEdit обеспечивает эффективное и точное редактирование изображений.
English
Diffusion Transformer models have significantly advanced image editing by encoding conditional images and integrating them into transformer layers. However, most edits involve modifying only small regions, while current methods uniformly process and denoise all tokens at every timestep, causing redundant computation and potentially degrading unchanged areas. This raises a fundamental question: Is it truly necessary to regenerate every region during editing? To address this, we propose SpotEdit, a training-free diffusion editing framework that selectively updates only the modified regions. SpotEdit comprises two key components: SpotSelector identifies stable regions via perceptual similarity and skips their computation by reusing conditional image features; SpotFusion adaptively blends these features with edited tokens through a dynamic fusion mechanism, preserving contextual coherence and editing quality. By reducing unnecessary computation and maintaining high fidelity in unmodified areas, SpotEdit achieves efficient and precise image editing.
PDF272December 31, 2025