ChatPaper.aiChatPaper

RegionE: 効率的な画像編集のための適応的領域認識生成

RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

October 29, 2025
著者: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen
cs.AI

要旨

近年、指示ベース画像編集(IIE)は広く注目を集めている。実際の応用では、IIEは画像の特定領域のみを変更することが多く、残りの領域はほぼ変化しない。これら2種類の領域は生成難易度と計算冗長性において大きく異なるが、既存のIIEモデルはこの差異を考慮せず、画像全体に均一な生成プロセスを適用している。この問題意識から、我々は追加学習なしでIIEタスクを高速化する適応的で領域を考慮した生成フレームワーク「RegionE」を提案する。具体的には、RegionEフレームワークは以下の3つの主要コンポーネントで構成される:1)適応的領域分割。未編集領域の軌跡が直線的であることを観測したため、複数ステップのノイズ除去予測を1ステップで推定可能である。そこで、初期のノイズ除去段階において、最終推定結果と参照画像の差分に基づき画像を編集領域と未編集領域に分割する。2)領域を考慮した生成。領域を区別した後、未編集領域では多段階ノイズ除去を1段階予測に置き換える。編集領域では軌跡が曲線的であるため、局所的な反復的ノイズ除去が必要となる。局所的反復生成の効率と品質向上のため、大域情報を保持しつつ計算コストを削減する「Region-Instruction KVキャッシュ」を提案する。3)適応的速度減衰キャッシュ。編集領域における隣接時間ステップが強い速度類似性を示すことを観測し、局所的ノイズ除去プロセスを加速する適応的速度減衰キャッシュをさらに提案する。RegionEをStep1X-Edit、FLUX.1 Kontext、Qwen-Image-Editなどの最先端IIEベースモデルに適用した結果、それぞれ2.57倍、2.41倍、2.06倍の高速化を達成した。GPT-4oによる評価では、意味的・知覚的忠実性が良好に維持されていることが確認された。
English
Recently, instruction-based image editing (IIE) has received widespread attention. In practice, IIE often modifies only specific regions of an image, while the remaining areas largely remain unchanged. Although these two types of regions differ significantly in generation difficulty and computational redundancy, existing IIE models do not account for this distinction, instead applying a uniform generation process across the entire image. This motivates us to propose RegionE, an adaptive, region-aware generation framework that accelerates IIE tasks without additional training. Specifically, the RegionE framework consists of three main components: 1) Adaptive Region Partition. We observed that the trajectory of unedited regions is straight, allowing for multi-step denoised predictions to be inferred in a single step. Therefore, in the early denoising stages, we partition the image into edited and unedited regions based on the difference between the final estimated result and the reference image. 2) Region-Aware Generation. After distinguishing the regions, we replace multi-step denoising with one-step prediction for unedited areas. For edited regions, the trajectory is curved, requiring local iterative denoising. To improve the efficiency and quality of local iterative generation, we propose the Region-Instruction KV Cache, which reduces computational cost while incorporating global information. 3) Adaptive Velocity Decay Cache. Observing that adjacent timesteps in edited regions exhibit strong velocity similarity, we further propose an adaptive velocity decay cache to accelerate the local denoising process. We applied RegionE to state-of-the-art IIE base models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o confirmed that semantic and perceptual fidelity were well preserved.
PDF271December 2, 2025