ChatPaper.aiChatPaper

RePlan: Redenering-gestuurde regioplannering voor complexe instructiegebaseerde beeldbewerking

RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

December 18, 2025
Auteurs: Tianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia
cs.AI

Samenvatting

Instruction-gestuurd beeldbewerking maakt natuurlijke-taalaansturing van visuele aanpassingen mogelijk, maar bestaande modellen falen onder Instruction-Visual Complexity (IV-Complexiteit), waar complexe instructies samenvallen met rommelige of dubbelzinnige scènes. Wij introduceren RePlan (Region-aligned Planning), een plan-dan-uitvoer raamwerk dat een vision-language planner koppelt aan een diffusion editor. De planner ontleedt instructies via stapsgewijs redeneren en verankert deze expliciet aan doelregio's; de editor past vervolgens wijzigingen toe met een trainingsvrij aandacht-regio-injectiemechanisme, wat precieze, parallelle multi-regio bewerkingen mogelijk maakt zonder iteratieve inpainting. Om planning te versterken, passen we GRPO-gebaseerd reinforcement learning toe met 1K alleen-instructie voorbeelden, wat aanzienlijke verbeteringen oplevert in redeneernauwkeurigheid en formaatbetrouwbaarheid. Wij presenteren verder IV-Edit, een benchmark gericht op fijnmazige verankering en kennisintensieve bewerkingen. In IV-Complexe situaties presteert RePlan consistent beter dan sterke baseline-modellen getraind op veel grotere datasets, met verbeterde regionale precisie en algehele nauwkeurigheid. Onze projectpagina: https://replan-iv-edit.github.io
English
Instruction-based image editing enables natural-language control over visual modifications, yet existing models falter under Instruction-Visual Complexity (IV-Complexity), where intricate instructions meet cluttered or ambiguous scenes. We introduce RePlan (Region-aligned Planning), a plan-then-execute framework that couples a vision-language planner with a diffusion editor. The planner decomposes instructions via step-by-step reasoning and explicitly grounds them to target regions; the editor then applies changes using a training-free attention-region injection mechanism, enabling precise, parallel multi-region edits without iterative inpainting. To strengthen planning, we apply GRPO-based reinforcement learning using 1K instruction-only examples, yielding substantial gains in reasoning fidelity and format reliability. We further present IV-Edit, a benchmark focused on fine-grained grounding and knowledge-intensive edits. Across IV-Complex settings, RePlan consistently outperforms strong baselines trained on far larger datasets, improving regional precision and overall fidelity. Our project page: https://replan-iv-edit.github.io
PDF102December 31, 2025