ChatPaper.aiChatPaper

RegionE: Adaptive regionsbewusste Generierung für effiziente Bildbearbeitung

RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

October 29, 2025
papers.authors: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen
cs.AI

papers.abstract

Kürzlich hat das befehlsbasierte Bildbearbeitung (IIE) breite Aufmerksamkeit erfahren. In der Praxis verändert IIE oft nur bestimmte Bereiche eines Bildes, während die restlichen Regionen weitgehend unverändert bleiben. Obwohl sich diese beiden Regionstypen erheblich in ihrer Generierungsschwierigkeit und Rechenredundanz unterscheiden, berücksichtigen bestehende IIE-Modelle diese Differenzierung nicht und wenden stattdessen einen einheitlichen Generierungsprozess auf das gesamte Bild an. Dies motivierte uns, RegionE vorzuschlagen – einen adaptiven, regionsbewussten Generierungsrahmen, der IIE-Aufgaben beschleunigt, ohne zusätzliches Training zu erfordern. Konkret besteht das RegionE-Framework aus drei Hauptkomponenten: 1) Adaptive Regionspartitionierung. Wir beobachteten, dass die Trajektorie unveränderter Regionen linear verläuft, was eine mehrstufige Denoisierungsvorhersage in einem einzigen Schritt ermöglicht. Daher unterteilen wir in frühen Denoisierungsphasen das Bild anhand der Differenz zwischen dem endgültigen Schätzergebnis und dem Referenzbild in bearbeitete und unveränderte Regionen. 2) Regionsbewusste Generierung. Nach der Regionsunterscheidung ersetzen wir die mehrstufige Denoisierung für unveränderte Bereiche durch eine Ein-Schritt-Vorhersage. Für bearbeitete Regionen ist die Trajektorie gekrümmt und erfordert lokale iterative Denoisierung. Um die Effizienz und Qualität der lokalen iterativen Generierung zu steigern, schlagen wir den Region-Instruction-KV-Cache vor, der Rechenkosten senkt und gleichzeitig globale Informationen einbezieht. 3) Adaptiver Velocity-Decay-Cache. Da benachbarte Zeitschritte in bearbeiteten Regionen starke Geschwindigkeitsähnlichkeit aufweisen, schlagen wir einen adaptiven Velocity-Decay-Cache zur Beschleunigung des lokalen Denoisierungsprozesses vor. Wir wandten RegionE auf state-of-the-art IIE-Basismodelle an, darunter Step1X-Edit, FLUX.1 Kontext und Qwen-Image-Edit. RegionE erzielte Beschleunigungsfaktoren von 2,57, 2,41 und 2,06. Evaluationen durch GPT-4o bestätigten, dass die semantische und perzeptive Treue gut erhalten blieb.
English
Recently, instruction-based image editing (IIE) has received widespread attention. In practice, IIE often modifies only specific regions of an image, while the remaining areas largely remain unchanged. Although these two types of regions differ significantly in generation difficulty and computational redundancy, existing IIE models do not account for this distinction, instead applying a uniform generation process across the entire image. This motivates us to propose RegionE, an adaptive, region-aware generation framework that accelerates IIE tasks without additional training. Specifically, the RegionE framework consists of three main components: 1) Adaptive Region Partition. We observed that the trajectory of unedited regions is straight, allowing for multi-step denoised predictions to be inferred in a single step. Therefore, in the early denoising stages, we partition the image into edited and unedited regions based on the difference between the final estimated result and the reference image. 2) Region-Aware Generation. After distinguishing the regions, we replace multi-step denoising with one-step prediction for unedited areas. For edited regions, the trajectory is curved, requiring local iterative denoising. To improve the efficiency and quality of local iterative generation, we propose the Region-Instruction KV Cache, which reduces computational cost while incorporating global information. 3) Adaptive Velocity Decay Cache. Observing that adjacent timesteps in edited regions exhibit strong velocity similarity, we further propose an adaptive velocity decay cache to accelerate the local denoising process. We applied RegionE to state-of-the-art IIE base models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o confirmed that semantic and perceptual fidelity were well preserved.
PDF271December 2, 2025