RegionE: Generazione Adattiva Basata su Regioni per un Editing Immagine Efficiente
RegionE: Adaptive Region-Aware Generation for Efficient Image Editing
October 29, 2025
Autori: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen
cs.AI
Abstract
Recentemente, l'editing di immagini basato su istruzioni (IIE) ha ricevuto ampia attenzione. Nella pratica, l'IIE modifica spesso solo regioni specifiche di un'immagine, mentre le aree rimanenti rimangono sostanzialmente invariate. Sebbene queste due tipologie di regioni differiscano significativamente in termini di difficoltà di generazione e ridondanza computazionale, i modelli IIE esistenti non tengono conto di questa distinzione, applicando invece un processo di generazione uniforme sull'intera immagine. Ciò ci ha motivato a proporre RegionE, un framework di generazione adattivo e region-aware che accelera i task IIE senza training aggiuntivo. Nello specifico, il framework RegionE consiste di tre componenti principali: 1) Partizione Adattiva della Regione. Abbiamo osservato che la traiettoria delle regioni non modificate è rettilinea, consentendo di inferire predizioni denoisate multi-step in un singolo passo. Pertanto, nelle fasi iniziali di denoising, partizioniamo l'immagine in regioni modificate e non modificate basandoci sulla differenza tra il risultato stimato finale e l'immagine di riferimento. 2) Generazione Region-Aware. Dopo aver distinto le regioni, sostituiamo il denoising multi-step con una predizione one-step per le aree non modificate. Per le regioni modificate, la traiettoria è curvilinea, richiedendo un denoising iterativo locale. Per migliorare l'efficienza e la qualità della generazione iterativa locale, proponiamo la Region-Instruction KV Cache, che riduce il costo computazionale incorporando al contempo informazioni globali. 3) Adaptive Velocity Decay Cache. Osservando che step temporali adiacenti nelle regioni modificate mostrano forte similarità di velocità, proponiamo ulteriormente una cache di decadimento adattivo della velocità per accelerare il processo di denoising locale. Abbiamo applicato RegionE a modelli base IIE all'avanguardia, inclusi Step1X-Edit, FLUX.1 Kontext e Qwen-Image-Edit. RegionE ha raggiunto fattori di accelerazione di 2.57, 2.41 e 2.06. Valutazioni condotte da GPT-4o hanno confermato che la fedeltà semantica e percettiva è stata preservata efficacemente.
English
Recently, instruction-based image editing (IIE) has received widespread
attention. In practice, IIE often modifies only specific regions of an image,
while the remaining areas largely remain unchanged. Although these two types of
regions differ significantly in generation difficulty and computational
redundancy, existing IIE models do not account for this distinction, instead
applying a uniform generation process across the entire image. This motivates
us to propose RegionE, an adaptive, region-aware generation framework that
accelerates IIE tasks without additional training. Specifically, the RegionE
framework consists of three main components: 1) Adaptive Region Partition. We
observed that the trajectory of unedited regions is straight, allowing for
multi-step denoised predictions to be inferred in a single step. Therefore, in
the early denoising stages, we partition the image into edited and unedited
regions based on the difference between the final estimated result and the
reference image. 2) Region-Aware Generation. After distinguishing the regions,
we replace multi-step denoising with one-step prediction for unedited areas.
For edited regions, the trajectory is curved, requiring local iterative
denoising. To improve the efficiency and quality of local iterative generation,
we propose the Region-Instruction KV Cache, which reduces computational cost
while incorporating global information. 3) Adaptive Velocity Decay Cache.
Observing that adjacent timesteps in edited regions exhibit strong velocity
similarity, we further propose an adaptive velocity decay cache to accelerate
the local denoising process. We applied RegionE to state-of-the-art IIE base
models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE
achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o
confirmed that semantic and perceptual fidelity were well preserved.