ChatPaper.aiChatPaper

RePlan: 복잡한 지시 기반 이미지 편집을 위한 추론 기반 영역 계획

RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

December 18, 2025
저자: Tianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia
cs.AI

초록

지시어 기반 이미지 편집은 시각적 수정을 자연어로 제어할 수 있게 하지만, 기존 모델들은 복잡한 지시어와 복잡하거나 모호한 장면이 만나는 지시어-시각 복잡성(IV-Complexity) 상황에서 취약합니다. 우리는 시각-언어 플래너와 디퓨전 편집기를 결합한 계획 후 실행(plan-then-execute) 프레임워크인 RePlan(Region-aligned Planning)을 소개합니다. 플래너는 단계별 추론을 통해 지시어를 분해하고 명시적으로 대상 영역에 연결하며, 편집기는 훈련 없이 적용 가능한 어텐션-영역 주입(attention-region injection) 메커니즘을 사용하여 변경을 적용함으로써 반복적인 인페인팅 없이 정확한 병렬 다중 영역 편집을 가능하게 합니다. 계획 능력을 강화하기 위해 1,000개의 지시어만으로 구성된 예시를 사용하여 GRPO 기반 강화 학습을 적용하였고, 이는 추론 정확도와 형식 안정성에서 상당한 향상을 가져왔습니다. 또한 미세 단위 영역 연결 및 지식 집약적 편집에 초점을 맞춘 벤치마크 IV-Edit를 제시합니다. IV-Complex 환경에서 RePlan은 훨씬 더 큰 데이터셋으로 훈련된 강력한 베이스라인들을 일관되게 능가하며, 영역 정밀도와 전체 정확도를 향상시켰습니다. 프로젝트 페이지: https://replan-iv-edit.github.io
English
Instruction-based image editing enables natural-language control over visual modifications, yet existing models falter under Instruction-Visual Complexity (IV-Complexity), where intricate instructions meet cluttered or ambiguous scenes. We introduce RePlan (Region-aligned Planning), a plan-then-execute framework that couples a vision-language planner with a diffusion editor. The planner decomposes instructions via step-by-step reasoning and explicitly grounds them to target regions; the editor then applies changes using a training-free attention-region injection mechanism, enabling precise, parallel multi-region edits without iterative inpainting. To strengthen planning, we apply GRPO-based reinforcement learning using 1K instruction-only examples, yielding substantial gains in reasoning fidelity and format reliability. We further present IV-Edit, a benchmark focused on fine-grained grounding and knowledge-intensive edits. Across IV-Complex settings, RePlan consistently outperforms strong baselines trained on far larger datasets, improving regional precision and overall fidelity. Our project page: https://replan-iv-edit.github.io
PDF92December 20, 2025