RegionE: Adaptieve Regiobewuste Generatie voor Efficiënte Bildbewerking
RegionE: Adaptive Region-Aware Generation for Efficient Image Editing
October 29, 2025
Auteurs: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen
cs.AI
Samenvatting
Onlangs heeft op instructies gebaseerde beeldbewerking (IIE) brede aandacht gekregen. In de praktijk wijzigt IIE vaak alleen specifieke delen van een afbeelding, terwijl de resterende gebieden grotendeels onveranderd blijven. Hoewel deze twee soorten regio's aanzienlijk verschillen in generatiemoeilijkheid en computationele redundantie, houden bestaande IIE-modellen geen rekening met dit onderscheid; in plaats daarvan passen ze een uniform generatieproces toe op de gehele afbeelding. Dit motiveerde ons om RegionE voor te stellen, een adaptief, regio-bewust generatieraamwerk dat IIE-taken versnelt zonder aanvullende training. Specifiek bestaat het RegionE-raamwerk uit drie hoofdcomponenten: 1) Adaptieve Regiopartitionering. We observeerden dat de trajectorie van onbewerkte regio's rechtlijnig is, waardoor meerstaps gedenoise voorspellingen in één stap afgeleid kunnen worden. Daarom partitioneren we de afbeelding in de vroege denoisestadia in bewerkte en onbewerkte regio's op basis van het verschil tussen het uiteindelijke geschatte resultaat en de referentieafbeelding. 2) Regio-bewuste Generatie. Na het onderscheiden van de regio's vervangen we meerstaps denoising door éénstaps voorspelling voor onbewerkte gebieden. Voor bewerkte regio's is de trajectorie gekromd, wat lokale iteratieve denoising vereist. Om de efficiëntie en kwaliteit van lokale iteratieve generatie te verbeteren, stellen we de Regio-Instructie KV Cache voor, die de computationele kosten verlaagt terwijl globale informatie wordt geïntegreerd. 3) Adaptieve Snelheidsvervallingscache. Omdat we observeerden dat aangrenzende tijdstappen in bewerkte regio's een sterke snelheidsgelijkenis vertonen, stellen we verder een adaptieve snelheidsvervallingscache voor om het lokale denoiseproces te versnellen. We pasten RegionE toe op state-of-the-art IIE-basismodellen, waaronder Step1X-Edit, FLUX.1 Kontext en Qwen-Image-Edit. RegionE behaalde versnellingsfactoren van respectievelijk 2.57, 2.41 en 2.06. Evaluaties door GPT-4o bevestigden dat semantische en perceptuele getrouwheid goed bewaard bleven.
English
Recently, instruction-based image editing (IIE) has received widespread
attention. In practice, IIE often modifies only specific regions of an image,
while the remaining areas largely remain unchanged. Although these two types of
regions differ significantly in generation difficulty and computational
redundancy, existing IIE models do not account for this distinction, instead
applying a uniform generation process across the entire image. This motivates
us to propose RegionE, an adaptive, region-aware generation framework that
accelerates IIE tasks without additional training. Specifically, the RegionE
framework consists of three main components: 1) Adaptive Region Partition. We
observed that the trajectory of unedited regions is straight, allowing for
multi-step denoised predictions to be inferred in a single step. Therefore, in
the early denoising stages, we partition the image into edited and unedited
regions based on the difference between the final estimated result and the
reference image. 2) Region-Aware Generation. After distinguishing the regions,
we replace multi-step denoising with one-step prediction for unedited areas.
For edited regions, the trajectory is curved, requiring local iterative
denoising. To improve the efficiency and quality of local iterative generation,
we propose the Region-Instruction KV Cache, which reduces computational cost
while incorporating global information. 3) Adaptive Velocity Decay Cache.
Observing that adjacent timesteps in edited regions exhibit strong velocity
similarity, we further propose an adaptive velocity decay cache to accelerate
the local denoising process. We applied RegionE to state-of-the-art IIE base
models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE
achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o
confirmed that semantic and perceptual fidelity were well preserved.