Oltre le Semplici Modifiche: X-Planner per l'Editing Complesso di Immagini Basato su Istruzioni
Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing
July 7, 2025
Autori: Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh
cs.AI
Abstract
I recenti metodi di editing basati sulla diffusione hanno compiuto progressi significativi nei task guidati da testo, ma spesso faticano a interpretare istruzioni complesse e indirette. Inoltre, i modelli attuali soffrono frequentemente di una scarsa conservazione dell'identità, modifiche indesiderate o di una forte dipendenza da maschere manuali. Per affrontare queste sfide, introduciamo X-Planner, un sistema di pianificazione basato su un Modello Linguistico Multimodale di Grande Scala (MLLM) che collega efficacemente l'intento dell'utente con le capacità del modello di editing. X-Planner utilizza il ragionamento a catena di pensiero per scomporre sistematicamente istruzioni complesse in sotto-istruzioni più semplici e chiare. Per ogni sotto-istruzione, X-Planner genera automaticamente tipi di modifica precisi e maschere di segmentazione, eliminando l'intervento manuale e garantendo modifiche localizzate che preservano l'identità. Inoltre, proponiamo una nuova pipeline automatizzata per generare dati su larga scala per addestrare X-Planner, che raggiunge risultati all'avanguardia sia sui benchmark esistenti che sul nostro nuovo benchmark di editing complesso.
English
Recent diffusion-based image editing methods have significantly advanced
text-guided tasks but often struggle to interpret complex, indirect
instructions. Moreover, current models frequently suffer from poor identity
preservation, unintended edits, or rely heavily on manual masks. To address
these challenges, we introduce X-Planner, a Multimodal Large Language Model
(MLLM)-based planning system that effectively bridges user intent with editing
model capabilities. X-Planner employs chain-of-thought reasoning to
systematically decompose complex instructions into simpler, clear
sub-instructions. For each sub-instruction, X-Planner automatically generates
precise edit types and segmentation masks, eliminating manual intervention and
ensuring localized, identity-preserving edits. Additionally, we propose a novel
automated pipeline for generating large-scale data to train X-Planner which
achieves state-of-the-art results on both existing benchmarks and our newly
introduced complex editing benchmark.