ChatPaper.aiChatPaper

RePlan:複雑な指示に基づく画像編集のための推論誘導型領域計画

RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

December 18, 2025
著者: Tianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia
cs.AI

要旨

指示に基づく画像編集は、視覚的変更に対する自然言語制御を可能にするが、既存のモデルは、複雑な指示が雑多あるいは曖昧な場面に遭遇する「指示-視覚的複雑性(IV-Complexity)」の下では不十分である。本論文では、計画-実行フレームワークであるRePlan(Region-aligned Planning)を提案する。これは視覚言語プランナと拡散モデルエディタを連携させ、プランナが段階的推論により指示を分解し、対象領域を明示的に接地する。エディタは、学習不要な注意領域注入メカニズムを用いて変更を適用し、反復的なインペインティングなしで正確な並列的多領域編集を実現する。計画能力を強化するため、1,000件の指示のみの事例を用いたGRPOベースの強化学習を適用し、推論の忠実性と形式の信頼性を大幅に向上させた。さらに、細粒度の接地と知識集約的な編集に焦点を当てたベンチマークIV-Editを提示する。IV-Complexな設定において、RePlanははるかに大規模なデータセットで学習した強力なベースラインを一貫して上回り、領域精度と全体的な忠実性を向上させる。プロジェクトページ: https://replan-iv-edit.github.io
English
Instruction-based image editing enables natural-language control over visual modifications, yet existing models falter under Instruction-Visual Complexity (IV-Complexity), where intricate instructions meet cluttered or ambiguous scenes. We introduce RePlan (Region-aligned Planning), a plan-then-execute framework that couples a vision-language planner with a diffusion editor. The planner decomposes instructions via step-by-step reasoning and explicitly grounds them to target regions; the editor then applies changes using a training-free attention-region injection mechanism, enabling precise, parallel multi-region edits without iterative inpainting. To strengthen planning, we apply GRPO-based reinforcement learning using 1K instruction-only examples, yielding substantial gains in reasoning fidelity and format reliability. We further present IV-Edit, a benchmark focused on fine-grained grounding and knowledge-intensive edits. Across IV-Complex settings, RePlan consistently outperforms strong baselines trained on far larger datasets, improving regional precision and overall fidelity. Our project page: https://replan-iv-edit.github.io
PDF92December 20, 2025