RegionE: Adaptieve Regiobewuste Generatie voor Efficiënte Bildbewerking

Samenvatting

Onlangs heeft op instructies gebaseerde beeldbewerking (IIE) brede aandacht gekregen. In de praktijk wijzigt IIE vaak alleen specifieke delen van een afbeelding, terwijl de resterende gebieden grotendeels onveranderd blijven. Hoewel deze twee soorten regio's aanzienlijk verschillen in generatiemoeilijkheid en computationele redundantie, houden bestaande IIE-modellen geen rekening met dit onderscheid; in plaats daarvan passen ze een uniform generatieproces toe op de gehele afbeelding. Dit motiveerde ons om RegionE voor te stellen, een adaptief, regio-bewust generatieraamwerk dat IIE-taken versnelt zonder aanvullende training. Specifiek bestaat het RegionE-raamwerk uit drie hoofdcomponenten: 1) Adaptieve Regiopartitionering. We observeerden dat de trajectorie van onbewerkte regio's rechtlijnig is, waardoor meerstaps gedenoise voorspellingen in één stap afgeleid kunnen worden. Daarom partitioneren we de afbeelding in de vroege denoisestadia in bewerkte en onbewerkte regio's op basis van het verschil tussen het uiteindelijke geschatte resultaat en de referentieafbeelding. 2) Regio-bewuste Generatie. Na het onderscheiden van de regio's vervangen we meerstaps denoising door éénstaps voorspelling voor onbewerkte gebieden. Voor bewerkte regio's is de trajectorie gekromd, wat lokale iteratieve denoising vereist. Om de efficiëntie en kwaliteit van lokale iteratieve generatie te verbeteren, stellen we de Regio-Instructie KV Cache voor, die de computationele kosten verlaagt terwijl globale informatie wordt geïntegreerd. 3) Adaptieve Snelheidsvervallingscache. Omdat we observeerden dat aangrenzende tijdstappen in bewerkte regio's een sterke snelheidsgelijkenis vertonen, stellen we verder een adaptieve snelheidsvervallingscache voor om het lokale denoiseproces te versnellen. We pasten RegionE toe op state-of-the-art IIE-basismodellen, waaronder Step1X-Edit, FLUX.1 Kontext en Qwen-Image-Edit. RegionE behaalde versnellingsfactoren van respectievelijk 2.57, 2.41 en 2.06. Evaluaties door GPT-4o bevestigden dat semantische en perceptuele getrouwheid goed bewaard bleven.

English

Recently, instruction-based image editing (IIE) has received widespread attention. In practice, IIE often modifies only specific regions of an image, while the remaining areas largely remain unchanged. Although these two types of regions differ significantly in generation difficulty and computational redundancy, existing IIE models do not account for this distinction, instead applying a uniform generation process across the entire image. This motivates us to propose RegionE, an adaptive, region-aware generation framework that accelerates IIE tasks without additional training. Specifically, the RegionE framework consists of three main components: 1) Adaptive Region Partition. We observed that the trajectory of unedited regions is straight, allowing for multi-step denoised predictions to be inferred in a single step. Therefore, in the early denoising stages, we partition the image into edited and unedited regions based on the difference between the final estimated result and the reference image. 2) Region-Aware Generation. After distinguishing the regions, we replace multi-step denoising with one-step prediction for unedited areas. For edited regions, the trajectory is curved, requiring local iterative denoising. To improve the efficiency and quality of local iterative generation, we propose the Region-Instruction KV Cache, which reduces computational cost while incorporating global information. 3) Adaptive Velocity Decay Cache. Observing that adjacent timesteps in edited regions exhibit strong velocity similarity, we further propose an adaptive velocity decay cache to accelerate the local denoising process. We applied RegionE to state-of-the-art IIE base models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o confirmed that semantic and perceptual fidelity were well preserved.

RegionE: Adaptieve Regiobewuste Generatie voor Efficiënte Bildbewerking

RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

Samenvatting

Support