ChatPaper.aiChatPaper

Voorbij Eenvoudige Bewerkingen: X-Planner voor Complexe Instructiegebaseerde Afbeeldingsbewerking

Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing

July 7, 2025
Auteurs: Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh
cs.AI

Samenvatting

Recente op diffusie gebaseerde beeldbewerkingsmethoden hebben aanzienlijke vooruitgang geboekt in tekstgestuurde taken, maar hebben vaak moeite met het interpreteren van complexe, indirecte instructies. Bovendien lijden huidige modellen vaak aan slechte identiteitsbehoud, onbedoelde bewerkingen of zijn ze sterk afhankelijk van handmatige maskers. Om deze uitdagingen aan te pakken, introduceren we X-Planner, een op Multimodal Large Language Model (MLLM) gebaseerd planningssysteem dat effectief de gebruikersintentie verbindt met de mogelijkheden van bewerkingsmodellen. X-Planner maakt gebruik van keten-van-gedachte-redenering om complexe instructies systematisch te ontleden in eenvoudigere, duidelijke sub-instructies. Voor elke sub-instructie genereert X-Planner automatisch precieze bewerkingstypen en segmentatiemaskers, waardoor handmatige interventie wordt geëlimineerd en gelokaliseerde, identiteitsbehoudende bewerkingen worden gegarandeerd. Daarnaast stellen we een nieuwe geautomatiseerde pipeline voor voor het genereren van grootschalige gegevens om X-Planner te trainen, wat state-of-the-art resultaten oplevert op zowel bestaande benchmarks als onze nieuw geïntroduceerde complexe bewerkingsbenchmark.
English
Recent diffusion-based image editing methods have significantly advanced text-guided tasks but often struggle to interpret complex, indirect instructions. Moreover, current models frequently suffer from poor identity preservation, unintended edits, or rely heavily on manual masks. To address these challenges, we introduce X-Planner, a Multimodal Large Language Model (MLLM)-based planning system that effectively bridges user intent with editing model capabilities. X-Planner employs chain-of-thought reasoning to systematically decompose complex instructions into simpler, clear sub-instructions. For each sub-instruction, X-Planner automatically generates precise edit types and segmentation masks, eliminating manual intervention and ensuring localized, identity-preserving edits. Additionally, we propose a novel automated pipeline for generating large-scale data to train X-Planner which achieves state-of-the-art results on both existing benchmarks and our newly introduced complex editing benchmark.
PDF51July 8, 2025