RegionE: Geração Adaptativa com Consciência de Região para Edição Eficiente de Imagens
RegionE: Adaptive Region-Aware Generation for Efficient Image Editing
October 29, 2025
Autores: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen
cs.AI
Resumo
Recentemente, a edição de imagens baseada em instruções (IIE) tem recebido ampla atenção. Na prática, a IIE frequentemente modifica apenas regiões específicas de uma imagem, enquanto as áreas restantes permanecem praticamente inalteradas. Embora esses dois tipos de regiões difiram significativamente em dificuldade de geração e redundância computacional, os modelos existentes de IIE não consideram essa distinção, aplicando um processo de geração uniforme em toda a imagem. Isso nos motivou a propor o RegionE, uma estrutura de geração adaptativa e consciente da região que acelera as tarefas de IIE sem treinamento adicional. Especificamente, a estrutura do RegionE consiste em três componentes principais: 1) Partição de Região Adaptativa. Observamos que a trajetória das regiões não editadas é reta, permitindo que previsões de ruído removido em múltiplos passos sejam inferidas em um único passo. Portanto, nos estágios iniciais de remoção de ruído, particionamos a imagem em regiões editadas e não editadas com base na diferença entre o resultado estimado final e a imagem de referência. 2) Geração Consciente da Região. Após distinguir as regiões, substituímos a remoção de ruído em múltiplos passos por uma previsão de único passo para áreas não editadas. Para regiões editadas, a trajetória é curva, exigindo remoção de ruído iterativa local. Para melhorar a eficiência e qualidade da geração iterativa local, propomos o Cache KV de Região-Instrução, que reduz o custo computacional enquanto incorpora informações globais. 3) Cache de Decaimento de Velocidade Adaptativa. Observando que intervalos de tempo adjacentes em regiões editadas exibem forte similaridade de velocidade, propomos ainda um cache de decaimento de velocidade adaptativa para acelerar o processo local de remoção de ruído. Aplicamos o RegionE a modelos base de IIE state-of-the-art, incluindo Step1X-Edit, FLUX.1 Kontext e Qwen-Image-Edit. O RegionE alcançou fatores de aceleração de 2,57, 2,41 e 2,06. Avaliações pelo GPT-4o confirmaram que a fidelidade semântica e perceptual foi bem preservada.
English
Recently, instruction-based image editing (IIE) has received widespread
attention. In practice, IIE often modifies only specific regions of an image,
while the remaining areas largely remain unchanged. Although these two types of
regions differ significantly in generation difficulty and computational
redundancy, existing IIE models do not account for this distinction, instead
applying a uniform generation process across the entire image. This motivates
us to propose RegionE, an adaptive, region-aware generation framework that
accelerates IIE tasks without additional training. Specifically, the RegionE
framework consists of three main components: 1) Adaptive Region Partition. We
observed that the trajectory of unedited regions is straight, allowing for
multi-step denoised predictions to be inferred in a single step. Therefore, in
the early denoising stages, we partition the image into edited and unedited
regions based on the difference between the final estimated result and the
reference image. 2) Region-Aware Generation. After distinguishing the regions,
we replace multi-step denoising with one-step prediction for unedited areas.
For edited regions, the trajectory is curved, requiring local iterative
denoising. To improve the efficiency and quality of local iterative generation,
we propose the Region-Instruction KV Cache, which reduces computational cost
while incorporating global information. 3) Adaptive Velocity Decay Cache.
Observing that adjacent timesteps in edited regions exhibit strong velocity
similarity, we further propose an adaptive velocity decay cache to accelerate
the local denoising process. We applied RegionE to state-of-the-art IIE base
models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE
achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o
confirmed that semantic and perceptual fidelity were well preserved.