RegionE: Geração Adaptativa com Consciência de Região para Edição Eficiente de Imagens

Resumo

Recentemente, a edição de imagens baseada em instruções (IIE) tem recebido ampla atenção. Na prática, a IIE frequentemente modifica apenas regiões específicas de uma imagem, enquanto as áreas restantes permanecem praticamente inalteradas. Embora esses dois tipos de regiões difiram significativamente em dificuldade de geração e redundância computacional, os modelos existentes de IIE não consideram essa distinção, aplicando um processo de geração uniforme em toda a imagem. Isso nos motivou a propor o RegionE, uma estrutura de geração adaptativa e consciente da região que acelera as tarefas de IIE sem treinamento adicional. Especificamente, a estrutura do RegionE consiste em três componentes principais: 1) Partição de Região Adaptativa. Observamos que a trajetória das regiões não editadas é reta, permitindo que previsões de ruído removido em múltiplos passos sejam inferidas em um único passo. Portanto, nos estágios iniciais de remoção de ruído, particionamos a imagem em regiões editadas e não editadas com base na diferença entre o resultado estimado final e a imagem de referência. 2) Geração Consciente da Região. Após distinguir as regiões, substituímos a remoção de ruído em múltiplos passos por uma previsão de único passo para áreas não editadas. Para regiões editadas, a trajetória é curva, exigindo remoção de ruído iterativa local. Para melhorar a eficiência e qualidade da geração iterativa local, propomos o Cache KV de Região-Instrução, que reduz o custo computacional enquanto incorpora informações globais. 3) Cache de Decaimento de Velocidade Adaptativa. Observando que intervalos de tempo adjacentes em regiões editadas exibem forte similaridade de velocidade, propomos ainda um cache de decaimento de velocidade adaptativa para acelerar o processo local de remoção de ruído. Aplicamos o RegionE a modelos base de IIE state-of-the-art, incluindo Step1X-Edit, FLUX.1 Kontext e Qwen-Image-Edit. O RegionE alcançou fatores de aceleração de 2,57, 2,41 e 2,06. Avaliações pelo GPT-4o confirmaram que a fidelidade semântica e perceptual foi bem preservada.

English

Recently, instruction-based image editing (IIE) has received widespread attention. In practice, IIE often modifies only specific regions of an image, while the remaining areas largely remain unchanged. Although these two types of regions differ significantly in generation difficulty and computational redundancy, existing IIE models do not account for this distinction, instead applying a uniform generation process across the entire image. This motivates us to propose RegionE, an adaptive, region-aware generation framework that accelerates IIE tasks without additional training. Specifically, the RegionE framework consists of three main components: 1) Adaptive Region Partition. We observed that the trajectory of unedited regions is straight, allowing for multi-step denoised predictions to be inferred in a single step. Therefore, in the early denoising stages, we partition the image into edited and unedited regions based on the difference between the final estimated result and the reference image. 2) Region-Aware Generation. After distinguishing the regions, we replace multi-step denoising with one-step prediction for unedited areas. For edited regions, the trajectory is curved, requiring local iterative denoising. To improve the efficiency and quality of local iterative generation, we propose the Region-Instruction KV Cache, which reduces computational cost while incorporating global information. 3) Adaptive Velocity Decay Cache. Observing that adjacent timesteps in edited regions exhibit strong velocity similarity, we further propose an adaptive velocity decay cache to accelerate the local denoising process. We applied RegionE to state-of-the-art IIE base models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o confirmed that semantic and perceptual fidelity were well preserved.

RegionE: Geração Adaptativa com Consciência de Região para Edição Eficiente de Imagens

RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

Resumo

Support