ChatPaper.aiChatPaper

RegionE : Génération adaptative sensible aux régions pour l'édition d'image efficace

RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

October 29, 2025
papers.authors: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen
cs.AI

papers.abstract

Récemment, l'édition d'images basée sur des instructions (IIE) a suscité une attention considérable. En pratique, l'IIE modifie souvent uniquement des régions spécifiques d'une image, tandis que les zones restantes demeurent largement inchangées. Bien que ces deux types de régions diffèrent significativement en termes de difficulté de génération et de redondance computationnelle, les modèles d'IIE existants ne prennent pas en compte cette distinction, appliquant plutôt un processus de génération uniforme sur l'ensemble de l'image. Ce constat nous motive à proposer RegionE, un cadre de génération adaptatif et conscient des régions, qui accélère les tâches d'IIE sans apprentissage supplémentaire. Concrètement, le cadre RegionE se compose de trois éléments principaux : 1) Partition Adaptative des Régions. Nous avons observé que la trajectoire des régions non éditées est rectiligne, permettant de déduire les prédictions débruitées en plusieurs étapes en une seule étape. Ainsi, dans les premières phases de débruitage, nous partitionnons l'image en régions éditées et non éditées sur la base de la différence entre le résultat estimé final et l'image de référence. 2) Génération Consciente des Régions. Après avoir distingué les régions, nous remplaçons le débruitage multi-étapes par une prédiction en une étape pour les zones non éditées. Pour les régions éditées, la trajectoire est courbe, nécessitant un débruitage itératif local. Pour améliorer l'efficacité et la qualité de la génération itérative locale, nous proposons le Cache KV Région-Instruction, qui réduit le coût computationnel tout en intégrant l'information globale. 3) Cache à Décroissance de Vélocité Adaptative. En observant que les pas de temps adjacents dans les régions éditées présentent une forte similarité de vélocité, nous proposons en outre un cache à décroissance de vélocité adaptative pour accélérer le processus de débruitage local. Nous avons appliqué RegionE à des modèles de base d'IIE de pointe, incluant Step1X-Edit, FLUX.1 Kontext et Qwen-Image-Edit. RegionE a atteint des facteurs d'accélération de 2,57, 2,41 et 2,06. Des évaluations par GPT-4o ont confirmé que la fidélité sémantique et perceptuelle était bien préservée.
English
Recently, instruction-based image editing (IIE) has received widespread attention. In practice, IIE often modifies only specific regions of an image, while the remaining areas largely remain unchanged. Although these two types of regions differ significantly in generation difficulty and computational redundancy, existing IIE models do not account for this distinction, instead applying a uniform generation process across the entire image. This motivates us to propose RegionE, an adaptive, region-aware generation framework that accelerates IIE tasks without additional training. Specifically, the RegionE framework consists of three main components: 1) Adaptive Region Partition. We observed that the trajectory of unedited regions is straight, allowing for multi-step denoised predictions to be inferred in a single step. Therefore, in the early denoising stages, we partition the image into edited and unedited regions based on the difference between the final estimated result and the reference image. 2) Region-Aware Generation. After distinguishing the regions, we replace multi-step denoising with one-step prediction for unedited areas. For edited regions, the trajectory is curved, requiring local iterative denoising. To improve the efficiency and quality of local iterative generation, we propose the Region-Instruction KV Cache, which reduces computational cost while incorporating global information. 3) Adaptive Velocity Decay Cache. Observing that adjacent timesteps in edited regions exhibit strong velocity similarity, we further propose an adaptive velocity decay cache to accelerate the local denoising process. We applied RegionE to state-of-the-art IIE base models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o confirmed that semantic and perceptual fidelity were well preserved.
PDF271December 2, 2025