RePlan: Планирование областей на основе логических рассуждений для сложного редактирования изображений по инструкциям
RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing
December 18, 2025
Авторы: Tianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia
cs.AI
Аннотация
Редактирование изображений на основе инструкций позволяет управлять визуальными изменениями с помощью естественного языка, однако существующие модели не справляются со Сложностью Инструкций и Визуала (IV-Complexity), когда сложные инструкции сталкиваются с загроможденными или неоднозначными сценами. Мы представляем RePlan (Планирование с привязкой к регионам) — фреймворк «спланируй-и-выполни», который объединяет визуально-языковой планировщик с диффузионным редактором. Планировщик декомпозирует инструкции посредством пошагового рассуждения и явно привязывает их к целевым регионам; редактор затем применяет изменения с помощью свободного от обучения механизма инъекции внимания в регионы, обеспечивая точное параллельное редактирование нескольких регионов без итеративного инпейнтинга. Для улучшения планирования мы применяем обучение с подкреплением на основе GRPO, используя всего 1К примеров с инструкциями, что дает значительный прирост в достоверности рассуждений и надежности формата. Мы также представляем IV-Edit — бенчмарк, сфокусированный на тонкой привязке и редактировании, требующем знаний. В условиях IV-Complexity RePlan стабильно превосходит сильные базовые модели, обученные на значительно больших наборах данных, улучшая региональную точность и общую достоверность. Страница проекта: https://replan-iv-edit.github.io
English
Instruction-based image editing enables natural-language control over visual modifications, yet existing models falter under Instruction-Visual Complexity (IV-Complexity), where intricate instructions meet cluttered or ambiguous scenes. We introduce RePlan (Region-aligned Planning), a plan-then-execute framework that couples a vision-language planner with a diffusion editor. The planner decomposes instructions via step-by-step reasoning and explicitly grounds them to target regions; the editor then applies changes using a training-free attention-region injection mechanism, enabling precise, parallel multi-region edits without iterative inpainting. To strengthen planning, we apply GRPO-based reinforcement learning using 1K instruction-only examples, yielding substantial gains in reasoning fidelity and format reliability. We further present IV-Edit, a benchmark focused on fine-grained grounding and knowledge-intensive edits. Across IV-Complex settings, RePlan consistently outperforms strong baselines trained on far larger datasets, improving regional precision and overall fidelity. Our project page: https://replan-iv-edit.github.io