ChatPaper.aiChatPaper

RegionE: Адаптивное регионально-ориентированное генерирование для эффективного редактирования изображений

RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

October 29, 2025
Авторы: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen
cs.AI

Аннотация

В последнее время редактирование изображений на основе инструкций (IIE) привлекает широкое внимание. На практике IIE часто изменяет только определенные области изображения, в то время как остальные участки в значительной степени остаются неизменными. Хотя эти два типа областей значительно различаются по сложности генерации и вычислительной избыточности, существующие модели IIE не учитывают это различие, применяя единый процесс генерации ко всему изображению. Это побудило нас предложить RegionE — адаптивную, учитывающую регионы структуру генерации, которая ускоряет задачи IIE без дополнительного обучения. В частности, структура RegionE состоит из трех основных компонентов: 1) Адаптивное разделение на регионы. Мы заметили, что траектория неизмененных регионов является прямой, что позволяет предсказывать результаты многошагового шумоподавления за один шаг. Поэтому на ранних стадиях денизинга мы разделяем изображение на редактируемые и нередактируемые области на основе разницы между окончательным оценочным результатом и эталонным изображением. 2) Регионально-ориентированная генерация. После разделения областей мы заменяем многошаговый денизинг одношаговым предсказанием для нередактируемых участков. Для редактируемых областей траектория является изогнутой, что требует локального итеративного шумоподавления. Для повышения эффективности и качества локальной итеративной генерации мы предлагаем Кэш KV региона-инструкции, который снижает вычислительные затраты, одновременно включая глобальную информацию. 3) Адаптивный кэш с затуханием скорости. Наблюдая, что соседние временные шаги в редактируемых областях демонстрируют сильное сходство скоростей, мы дополнительно предлагаем адаптивный кэш с затуханием скорости для ускорения процесса локального денизинга. Мы применили RegionE к передовым базовым моделям IIE, включая Step1X-Edit, FLUX.1 Kontext и Qwen-Image-Edit. RegionE достигла коэффициентов ускорения 2.57, 2.41 и 2.06 соответственно. Оценки с помощью GPT-4o подтвердили, что семантическая и перцепционная достоверность были хорошо сохранены.
English
Recently, instruction-based image editing (IIE) has received widespread attention. In practice, IIE often modifies only specific regions of an image, while the remaining areas largely remain unchanged. Although these two types of regions differ significantly in generation difficulty and computational redundancy, existing IIE models do not account for this distinction, instead applying a uniform generation process across the entire image. This motivates us to propose RegionE, an adaptive, region-aware generation framework that accelerates IIE tasks without additional training. Specifically, the RegionE framework consists of three main components: 1) Adaptive Region Partition. We observed that the trajectory of unedited regions is straight, allowing for multi-step denoised predictions to be inferred in a single step. Therefore, in the early denoising stages, we partition the image into edited and unedited regions based on the difference between the final estimated result and the reference image. 2) Region-Aware Generation. After distinguishing the regions, we replace multi-step denoising with one-step prediction for unedited areas. For edited regions, the trajectory is curved, requiring local iterative denoising. To improve the efficiency and quality of local iterative generation, we propose the Region-Instruction KV Cache, which reduces computational cost while incorporating global information. 3) Adaptive Velocity Decay Cache. Observing that adjacent timesteps in edited regions exhibit strong velocity similarity, we further propose an adaptive velocity decay cache to accelerate the local denoising process. We applied RegionE to state-of-the-art IIE base models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o confirmed that semantic and perceptual fidelity were well preserved.
PDF271December 2, 2025