RePlan : Planification de région guidée par le raisonnement pour l'édition d'images complexe basée sur des instructions
RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing
December 18, 2025
papers.authors: Tianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia
cs.AI
papers.abstract
L'édition d'images basée sur des instructions permet un contrôle en langage naturel des modifications visuelles, mais les modèles existants échouent face à la Complexité Instruction-Visuelle (IV-Complexité), où des instructions complexes rencontrent des scènes encombrées ou ambiguës. Nous présentons RePlan (Planification Alignée sur les Régions), un cadre planifier-puis-exécuter qui couple un planificateur vision-langage avec un éditeur à diffusion. Le planificateur décompose les instructions via un raisonnement étape par étape et les ancre explicitement à des régions cibles ; l'éditeur applique ensuite les modifications à l'aide d'un mécanisme d'injection de régions par attention sans apprentissage, permettant des éditions multi-régions précises et parallèles sans inpaintage itératif. Pour renforcer la planification, nous appliquons un apprentissage par renforcement basé sur GRPO en utilisant 1 000 exemples contenant uniquement des instructions, ce qui entraîne des gains substantiels en fidélité de raisonnement et en fiabilité du format. Nous présentons également IV-Edit, un benchmark axé sur l'ancrage fin et les éditions nécessitant des connaissances approfondies. Dans des contextes à forte IV-Complexité, RePlan surpasse systématiquement des modèles de référence solides entraînés sur des jeux de données bien plus vastes, améliorant la précision régionale et la fidélité globale. Notre page de projet : https://replan-iv-edit.github.io
English
Instruction-based image editing enables natural-language control over visual modifications, yet existing models falter under Instruction-Visual Complexity (IV-Complexity), where intricate instructions meet cluttered or ambiguous scenes. We introduce RePlan (Region-aligned Planning), a plan-then-execute framework that couples a vision-language planner with a diffusion editor. The planner decomposes instructions via step-by-step reasoning and explicitly grounds them to target regions; the editor then applies changes using a training-free attention-region injection mechanism, enabling precise, parallel multi-region edits without iterative inpainting. To strengthen planning, we apply GRPO-based reinforcement learning using 1K instruction-only examples, yielding substantial gains in reasoning fidelity and format reliability. We further present IV-Edit, a benchmark focused on fine-grained grounding and knowledge-intensive edits. Across IV-Complex settings, RePlan consistently outperforms strong baselines trained on far larger datasets, improving regional precision and overall fidelity. Our project page: https://replan-iv-edit.github.io