ChatPaper.aiChatPaper

RePlan: Planificación de Regiones Guiada por Razonamiento para la Edición de Imágenes Complejas Basada en Instrucciones

RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

December 18, 2025
Autores: Tianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia
cs.AI

Resumen

La edición de imágenes basada en instrucciones permite el control mediante lenguaje natural sobre las modificaciones visuales; sin embargo, los modelos existentes flaquean ante la Complejidad Instrucción-Visual (IV-Complexity), donde instrucciones intrincadas se encuentran con escenas desordenadas o ambiguas. Presentamos RePlan (Planificación Alineada con Regiones), un marco de trabajo de planificar-y-ejecutar que acopla un planificador de visión y lenguaje con un editor de difusión. El planificador descompone las instrucciones mediante un razonamiento paso a paso y las ancla explícitamente a regiones objetivo; el editor luego aplica los cambios usando un mecanismo de inyección de atención-región libre de entrenamiento, permitiendo ediciones multi-región precisas y en paralelo sin la necesidad de un repintado iterativo. Para fortalecer la planificación, aplicamos aprendizaje por refuerzo basado en GRPO utilizando 1,000 ejemplos de solo instrucciones, logrando mejoras sustanciales en la fidelidad del razonamiento y la confiabilidad del formato. Además, presentamos IV-Edit, un benchmark centrado en la anclaje de grano fino y las ediciones que requieren conocimiento intensivo. En escenarios de alta IV-Complexity, RePlan supera consistentemente a sólidos modelos de referencia entrenados con conjuntos de datos mucho más grandes, mejorando la precisión regional y la fidelidad general. Nuestra página del proyecto: https://replan-iv-edit.github.io
English
Instruction-based image editing enables natural-language control over visual modifications, yet existing models falter under Instruction-Visual Complexity (IV-Complexity), where intricate instructions meet cluttered or ambiguous scenes. We introduce RePlan (Region-aligned Planning), a plan-then-execute framework that couples a vision-language planner with a diffusion editor. The planner decomposes instructions via step-by-step reasoning and explicitly grounds them to target regions; the editor then applies changes using a training-free attention-region injection mechanism, enabling precise, parallel multi-region edits without iterative inpainting. To strengthen planning, we apply GRPO-based reinforcement learning using 1K instruction-only examples, yielding substantial gains in reasoning fidelity and format reliability. We further present IV-Edit, a benchmark focused on fine-grained grounding and knowledge-intensive edits. Across IV-Complex settings, RePlan consistently outperforms strong baselines trained on far larger datasets, improving regional precision and overall fidelity. Our project page: https://replan-iv-edit.github.io
PDF92December 20, 2025