ChatPaper.aiChatPaper

RegionE: 효율적인 이미지 편집을 위한 적응형 영역 인식 생성

RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

October 29, 2025
저자: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen
cs.AI

초록

최근 지시어 기반 이미지 편집(IIE)이 폭넓은 관심을 받고 있다. 실제로 IIE는 이미지의 특정 영역만 수정하는 반면, 나머지 영역은 대부분 변경되지 않는 경우가 많다. 이 두 영역은 생성 난이도와 계산적 중복성 측면에서 현저한 차이를 보이지만, 기존 IIE 모델들은 이러한 차이를 고려하지 않고 전체 이미지에 균일한 생성 과정을 적용한다. 이에 우리는 별도의 학습 없이 IIE 작업의 속도를 향상시키는 적응형 지역 인식 생성 프레임워크인 RegionE를 제안한다. 구체적으로 RegionE 프레임워크는 세 가지 주요 구성 요소로 이루어진다: 1) 적응형 지역 분할: 수정되지 않은 영역의 궤적이 직선적이라는 점에 착안하여, 여러 단계의 노이즈 제거 예측을 단일 단계로 추론할 수 있음을 확인했다. 따라서 초기 노이즈 제거 단계에서 최종 예측 결과와 참조 이미지 간의 차이를 기반으로 이미지를 편집 영역과 비편집 영역으로 분할한다. 2) 지역 인식 생성: 영역을 구분한 후, 비편집 영역에 대해서는 다단계 노이즈 제거 과정을 단일 단계 예측으로 대체한다. 반면 편집 영역의 궤적은 곡선형이기 때문에 지역적 반복적 노이즈 제거가 필요하다. 지역적 반복 생성의 효율성과 품질을 향상시키기 위해 전역 정보를 포함하면서 계산 비용을 절감하는 Region-Instruction KV Cache를 제안한다. 3) 적응형 속도 감쇠 캐시: 편집 영역에서 인접한 시간 단계 간에 강한 속도 유사성이 관찰됨에 따라, 지역적 노이즈 제거 과정을 가속화하기 위한 적응형 속도 감쇠 캐시를 추가로 제안한다. 우리는 RegionE를 Step1X-Edit, FLUX.1 Kontext, Qwen-Image-Edit을 포함한 최첨단 IIE 기본 모델에 적용했다. RegionE는 각각 2.57, 2.41, 2.06의 가속화 계수를 달성했다. GPT-4o를 통한 평가 결과, 의미론적 및 지각적 정확도가 잘 유지됨을 확인하였다.
English
Recently, instruction-based image editing (IIE) has received widespread attention. In practice, IIE often modifies only specific regions of an image, while the remaining areas largely remain unchanged. Although these two types of regions differ significantly in generation difficulty and computational redundancy, existing IIE models do not account for this distinction, instead applying a uniform generation process across the entire image. This motivates us to propose RegionE, an adaptive, region-aware generation framework that accelerates IIE tasks without additional training. Specifically, the RegionE framework consists of three main components: 1) Adaptive Region Partition. We observed that the trajectory of unedited regions is straight, allowing for multi-step denoised predictions to be inferred in a single step. Therefore, in the early denoising stages, we partition the image into edited and unedited regions based on the difference between the final estimated result and the reference image. 2) Region-Aware Generation. After distinguishing the regions, we replace multi-step denoising with one-step prediction for unedited areas. For edited regions, the trajectory is curved, requiring local iterative denoising. To improve the efficiency and quality of local iterative generation, we propose the Region-Instruction KV Cache, which reduces computational cost while incorporating global information. 3) Adaptive Velocity Decay Cache. Observing that adjacent timesteps in edited regions exhibit strong velocity similarity, we further propose an adaptive velocity decay cache to accelerate the local denoising process. We applied RegionE to state-of-the-art IIE base models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o confirmed that semantic and perceptual fidelity were well preserved.
PDF271December 2, 2025