Voorbij Eenvoudige Bewerkingen: X-Planner voor Complexe Instructiegebaseerde Afbeeldingsbewerking
Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing
July 7, 2025
Auteurs: Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh
cs.AI
Samenvatting
Recente op diffusie gebaseerde beeldbewerkingsmethoden hebben aanzienlijke vooruitgang geboekt in tekstgestuurde taken, maar hebben vaak moeite met het interpreteren van complexe, indirecte instructies. Bovendien lijden huidige modellen vaak aan slechte identiteitsbehoud, onbedoelde bewerkingen of zijn ze sterk afhankelijk van handmatige maskers. Om deze uitdagingen aan te pakken, introduceren we X-Planner, een op Multimodal Large Language Model (MLLM) gebaseerd planningssysteem dat effectief de gebruikersintentie verbindt met de mogelijkheden van bewerkingsmodellen. X-Planner maakt gebruik van keten-van-gedachte-redenering om complexe instructies systematisch te ontleden in eenvoudigere, duidelijke sub-instructies. Voor elke sub-instructie genereert X-Planner automatisch precieze bewerkingstypen en segmentatiemaskers, waardoor handmatige interventie wordt geëlimineerd en gelokaliseerde, identiteitsbehoudende bewerkingen worden gegarandeerd. Daarnaast stellen we een nieuwe geautomatiseerde pipeline voor voor het genereren van grootschalige gegevens om X-Planner te trainen, wat state-of-the-art resultaten oplevert op zowel bestaande benchmarks als onze nieuw geïntroduceerde complexe bewerkingsbenchmark.
English
Recent diffusion-based image editing methods have significantly advanced
text-guided tasks but often struggle to interpret complex, indirect
instructions. Moreover, current models frequently suffer from poor identity
preservation, unintended edits, or rely heavily on manual masks. To address
these challenges, we introduce X-Planner, a Multimodal Large Language Model
(MLLM)-based planning system that effectively bridges user intent with editing
model capabilities. X-Planner employs chain-of-thought reasoning to
systematically decompose complex instructions into simpler, clear
sub-instructions. For each sub-instruction, X-Planner automatically generates
precise edit types and segmentation masks, eliminating manual intervention and
ensuring localized, identity-preserving edits. Additionally, we propose a novel
automated pipeline for generating large-scale data to train X-Planner which
achieves state-of-the-art results on both existing benchmarks and our newly
introduced complex editing benchmark.