ChatPaper.aiChatPaper

RePlan: Planungsgesteuerte Bereichsauswahl für komplexe, instruktionsbasierte Bildbearbeitung

RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

December 18, 2025
papers.authors: Tianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia
cs.AI

papers.abstract

Instruktionsbasierte Bildbearbeitung ermöglicht eine natürliche Sprachsteuerung visueller Modifikationen, doch bestehende Modelle versagen bei Instruction-Visual Complexity (IV-Complexity), wenn komplexe Anweisungen auf unübersichtliche oder mehrdeutige Szenen treffen. Wir stellen RePlan (Region-aligned Planning) vor, einen Plan-then-Execute-Ansatz, der einen Sprach-Vision-Planner mit einem Diffusions-Editor koppelt. Der Planner zerlegt Anweisungen durch schrittweise Reasoning-Schritte und verankert sie explizit in Zielregionen; der Editor wendet Änderungen dann mittels eines trainingsfreien Attention-Region-Injection-Mechanismus an, der präzise, parallele Multiregion-Bearbeitungen ohne iteratives Inpainting ermöglicht. Zur Verbesserung der Planung nutzen wir GRPO-basiertes Reinforcement Learning mit 1.000 reinen Anweisungsbeispielen, was zu erheblichen Steigerungen in Reasoning-Treue und Formatzuverlässigkeit führt. Wir präsentieren zudem IV-Edit, einen Benchmark für feinkörnige Verankerung und wissensintensive Bearbeitungen. In IV-Complex-Szenarien übertrifft RePlan durchgängig starke Baseline-Modelle, die mit deutlich größeren Datensätzen trainiert wurden, und verbessert regionale Präzision sowie Gesamttreue. Unsere Projektseite: https://replan-iv-edit.github.io.
English
Instruction-based image editing enables natural-language control over visual modifications, yet existing models falter under Instruction-Visual Complexity (IV-Complexity), where intricate instructions meet cluttered or ambiguous scenes. We introduce RePlan (Region-aligned Planning), a plan-then-execute framework that couples a vision-language planner with a diffusion editor. The planner decomposes instructions via step-by-step reasoning and explicitly grounds them to target regions; the editor then applies changes using a training-free attention-region injection mechanism, enabling precise, parallel multi-region edits without iterative inpainting. To strengthen planning, we apply GRPO-based reinforcement learning using 1K instruction-only examples, yielding substantial gains in reasoning fidelity and format reliability. We further present IV-Edit, a benchmark focused on fine-grained grounding and knowledge-intensive edits. Across IV-Complex settings, RePlan consistently outperforms strong baselines trained on far larger datasets, improving regional precision and overall fidelity. Our project page: https://replan-iv-edit.github.io
PDF92December 20, 2025