ChatPaper.aiChatPaper

RePlan: Pianificazione Regionale Guidata dal Ragionamento per l'Editing di Immagini Basato su Istruzioni Complesse

RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

December 18, 2025
Autori: Tianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia
cs.AI

Abstract

L'editing di immagini basato su istruzioni consente il controllo tramite linguaggio naturale sulle modifiche visive, tuttavia i modelli esistenti vacillano di fronte alla Complessità Istruzione-Visuale (IV-Complexity), dove istruzioni intricate incontrano scene disordinate o ambigue. Introduciamo RePlan (Region-aligned Planning), un framework "plan-then-execute" che accoppia un pianificatore visione-linguaggio con un editor basato su diffusione. Il pianificatore scompone le istruzioni attraverso un ragionamento passo-passo e le ancora esplicitamente a regioni target; l'editor applica quindi le modifiche utilizzando un meccanismo di iniezione regione-attenzione senza addestramento, abilitando modifiche multi-regione precise e parallele senza inpainting iterativo. Per potenziare la pianificazione, applichiamo un reinforcement learning basato su GRPO utilizzando 1K esempi con sole istruzioni, ottenendo miglioramenti sostanziali nella fedeltà del ragionamento e nell'affidabilità del formato. Presentiamo inoltre IV-Edit, un benchmark focalizzato sull'ancoraggio fine-granularità e su modifiche ad alta intensità di conoscenza. In contesti IV-Complex, RePlan supera costantemente baseline robuste addestrate su dataset molto più grandi, migliorando la precisione regionale e la fedeltà complessiva. La nostra pagina progetto: https://replan-iv-edit.github.io
English
Instruction-based image editing enables natural-language control over visual modifications, yet existing models falter under Instruction-Visual Complexity (IV-Complexity), where intricate instructions meet cluttered or ambiguous scenes. We introduce RePlan (Region-aligned Planning), a plan-then-execute framework that couples a vision-language planner with a diffusion editor. The planner decomposes instructions via step-by-step reasoning and explicitly grounds them to target regions; the editor then applies changes using a training-free attention-region injection mechanism, enabling precise, parallel multi-region edits without iterative inpainting. To strengthen planning, we apply GRPO-based reinforcement learning using 1K instruction-only examples, yielding substantial gains in reasoning fidelity and format reliability. We further present IV-Edit, a benchmark focused on fine-grained grounding and knowledge-intensive edits. Across IV-Complex settings, RePlan consistently outperforms strong baselines trained on far larger datasets, improving regional precision and overall fidelity. Our project page: https://replan-iv-edit.github.io
PDF102December 21, 2025