RegionE: Generación Adaptativa con Conciencia Regional para la Edición Eficiente de Imágenes
RegionE: Adaptive Region-Aware Generation for Efficient Image Editing
October 29, 2025
Autores: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen
cs.AI
Resumen
Recientemente, la edición de imágenes basada en instrucciones (IIE) ha recibido una atención generalizada. En la práctica, la IIE a menudo modifica solo regiones específicas de una imagen, mientras que las áreas restantes permanecen prácticamente inalteradas. Aunque estos dos tipos de regiones difieren significativamente en dificultad de generación y redundancia computacional, los modelos existentes de IIE no tienen en cuenta esta distinción, aplicando en su lugar un proceso de generación uniforme en toda la imagen. Esto nos motiva a proponer RegionE, un marco de generación adaptativo y consciente de las regiones que acelera las tareas de IIE sin necesidad de entrenamiento adicional. Específicamente, el marco RegionE consta de tres componentes principales: 1) **Partición Adaptativa de Regiones**. Observamos que la trayectoria de las regiones no editadas es recta, lo que permite inferir predicciones desruidosas de múltiples pasos en un solo paso. Por lo tanto, en las primeras etapas de desruido, particionamos la imagen en regiones editadas y no editadas basándonos en la diferencia entre el resultado estimado final y la imagen de referencia. 2) **Generación Consciente de Regiones**. Tras distinguir las regiones, reemplazamos el desruido multi-paso con una predicción de un solo paso para las áreas no editadas. Para las regiones editadas, la trayectoria es curva, requiriendo un desruido iterativo local. Para mejorar la eficiencia y calidad de la generación iterativa local, proponemos la Caché KV de Región-Instrucción, que reduce el coste computacional a la vez que incorpora información global. 3) **Caché de Decaimiento de Velocidad Adaptativa**. Al observar que los intervalos de tiempo adyacentes en las regiones editadas exhiben una fuerte similitud de velocidad, proponemos además una caché de decaimiento de velocidad adaptativa para acelerar el proceso de desruido local. Aplicamos RegionE a modelos base de IIE de vanguardia, incluyendo Step1X-Edit, FLUX.1 Kontext y Qwen-Image-Edit. RegionE logró factores de aceleración de 2.57, 2.41 y 2.06, respectivamente. Las evaluaciones realizadas por GPT-4o confirmaron que la fidelidad semántica y perceptual se preservó adecuadamente.
English
Recently, instruction-based image editing (IIE) has received widespread
attention. In practice, IIE often modifies only specific regions of an image,
while the remaining areas largely remain unchanged. Although these two types of
regions differ significantly in generation difficulty and computational
redundancy, existing IIE models do not account for this distinction, instead
applying a uniform generation process across the entire image. This motivates
us to propose RegionE, an adaptive, region-aware generation framework that
accelerates IIE tasks without additional training. Specifically, the RegionE
framework consists of three main components: 1) Adaptive Region Partition. We
observed that the trajectory of unedited regions is straight, allowing for
multi-step denoised predictions to be inferred in a single step. Therefore, in
the early denoising stages, we partition the image into edited and unedited
regions based on the difference between the final estimated result and the
reference image. 2) Region-Aware Generation. After distinguishing the regions,
we replace multi-step denoising with one-step prediction for unedited areas.
For edited regions, the trajectory is curved, requiring local iterative
denoising. To improve the efficiency and quality of local iterative generation,
we propose the Region-Instruction KV Cache, which reduces computational cost
while incorporating global information. 3) Adaptive Velocity Decay Cache.
Observing that adjacent timesteps in edited regions exhibit strong velocity
similarity, we further propose an adaptive velocity decay cache to accelerate
the local denoising process. We applied RegionE to state-of-the-art IIE base
models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE
achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o
confirmed that semantic and perceptual fidelity were well preserved.