RePlan: Planejamento de Regiões Guiado por Raciocínio para Edição de Imagens Baseada em Instruções Complexas

Resumo

A edição de imagens baseada em instruções permite o controle por linguagem natural sobre modificações visuais, porém os modelos existentes falham perante a Complexidade Instrução-Visual (IV-Complexity), onde instruções intrincadas encontram cenas complexas ou ambíguas. Apresentamos o RePlan (Planejamento Alinhado por Região), uma estrutura planejar-depois-executar que acopla um planejador visão-linguagem a um editor de difusão. O planejador decompõe instruções via raciocínio passo a passo e as ancora explicitamente em regiões-alvo; o editor então aplica as alterações usando um mecanismo de injeção região-atenção sem treinamento, permitindo edições multi-região precisas e paralelas sem *inpainting* iterativo. Para fortalecer o planejamento, aplicamos aprendizado por reforço baseado em GRPO usando 1K exemplos apenas com instruções, resultando em ganhos substanciais na fidelidade do raciocínio e na confiabilidade do formato. Apresentamos ainda o IV-Edit, um *benchmark* focado em ancoragem refinada e edições intensivas em conhecimento. Em configurações IV-Complex, o RePlan supera consistentemente *baselines* robustas treinadas em conjuntos de dados muito maiores, melhorando a precisão regional e a fidelidade geral. Nossa página do projeto: https://replan-iv-edit.github.io

English

Instruction-based image editing enables natural-language control over visual modifications, yet existing models falter under Instruction-Visual Complexity (IV-Complexity), where intricate instructions meet cluttered or ambiguous scenes. We introduce RePlan (Region-aligned Planning), a plan-then-execute framework that couples a vision-language planner with a diffusion editor. The planner decomposes instructions via step-by-step reasoning and explicitly grounds them to target regions; the editor then applies changes using a training-free attention-region injection mechanism, enabling precise, parallel multi-region edits without iterative inpainting. To strengthen planning, we apply GRPO-based reinforcement learning using 1K instruction-only examples, yielding substantial gains in reasoning fidelity and format reliability. We further present IV-Edit, a benchmark focused on fine-grained grounding and knowledge-intensive edits. Across IV-Complex settings, RePlan consistently outperforms strong baselines trained on far larger datasets, improving regional precision and overall fidelity. Our project page: https://replan-iv-edit.github.io