Au-delà des simples modifications : X-Planner pour l'édition d'images complexes basée sur des instructions
Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing
July 7, 2025
Auteurs: Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh
cs.AI
Résumé
Les méthodes récentes d'édition d'images basées sur la diffusion ont considérablement progressé dans les tâches guidées par le texte, mais elles peinent souvent à interpréter des instructions complexes et indirectes. De plus, les modèles actuels souffrent fréquemment d'une mauvaise préservation de l'identité, de modifications involontaires, ou dépendent fortement de masques manuels. Pour relever ces défis, nous présentons X-Planner, un système de planification basé sur un Modèle de Langage Multimodal (MLLM) qui relie efficacement l'intention de l'utilisateur aux capacités du modèle d'édition. X-Planner utilise un raisonnement en chaîne de pensée pour décomposer systématiquement des instructions complexes en sous-instructions plus simples et claires. Pour chaque sous-instruction, X-Planner génère automatiquement des types de modifications précis et des masques de segmentation, éliminant ainsi l'intervention manuelle et garantissant des modifications localisées qui préservent l'identité. Par ailleurs, nous proposons un nouveau pipeline automatisé pour générer des données à grande échelle afin d'entraîner X-Planner, qui obtient des résultats de pointe à la fois sur les benchmarks existants et sur notre nouveau benchmark d'édition complexe.
English
Recent diffusion-based image editing methods have significantly advanced
text-guided tasks but often struggle to interpret complex, indirect
instructions. Moreover, current models frequently suffer from poor identity
preservation, unintended edits, or rely heavily on manual masks. To address
these challenges, we introduce X-Planner, a Multimodal Large Language Model
(MLLM)-based planning system that effectively bridges user intent with editing
model capabilities. X-Planner employs chain-of-thought reasoning to
systematically decompose complex instructions into simpler, clear
sub-instructions. For each sub-instruction, X-Planner automatically generates
precise edit types and segmentation masks, eliminating manual intervention and
ensuring localized, identity-preserving edits. Additionally, we propose a novel
automated pipeline for generating large-scale data to train X-Planner which
achieves state-of-the-art results on both existing benchmarks and our newly
introduced complex editing benchmark.