Au-delà des simples modifications : X-Planner pour l'édition d'images complexes basée sur des instructions

Résumé

Les méthodes récentes d'édition d'images basées sur la diffusion ont considérablement progressé dans les tâches guidées par le texte, mais elles peinent souvent à interpréter des instructions complexes et indirectes. De plus, les modèles actuels souffrent fréquemment d'une mauvaise préservation de l'identité, de modifications involontaires, ou dépendent fortement de masques manuels. Pour relever ces défis, nous présentons X-Planner, un système de planification basé sur un Modèle de Langage Multimodal (MLLM) qui relie efficacement l'intention de l'utilisateur aux capacités du modèle d'édition. X-Planner utilise un raisonnement en chaîne de pensée pour décomposer systématiquement des instructions complexes en sous-instructions plus simples et claires. Pour chaque sous-instruction, X-Planner génère automatiquement des types de modifications précis et des masques de segmentation, éliminant ainsi l'intervention manuelle et garantissant des modifications localisées qui préservent l'identité. Par ailleurs, nous proposons un nouveau pipeline automatisé pour générer des données à grande échelle afin d'entraîner X-Planner, qui obtient des résultats de pointe à la fois sur les benchmarks existants et sur notre nouveau benchmark d'édition complexe.

English

Recent diffusion-based image editing methods have significantly advanced text-guided tasks but often struggle to interpret complex, indirect instructions. Moreover, current models frequently suffer from poor identity preservation, unintended edits, or rely heavily on manual masks. To address these challenges, we introduce X-Planner, a Multimodal Large Language Model (MLLM)-based planning system that effectively bridges user intent with editing model capabilities. X-Planner employs chain-of-thought reasoning to systematically decompose complex instructions into simpler, clear sub-instructions. For each sub-instruction, X-Planner automatically generates precise edit types and segmentation masks, eliminating manual intervention and ensuring localized, identity-preserving edits. Additionally, we propose a novel automated pipeline for generating large-scale data to train X-Planner which achieves state-of-the-art results on both existing benchmarks and our newly introduced complex editing benchmark.

Au-delà des simples modifications : X-Planner pour l'édition d'images complexes basée sur des instructions

Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing

Résumé

Support