Más allá de las ediciones simples: X-Planner para la edición de imágenes basada en instrucciones complejas
Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing
July 7, 2025
Autores: Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh
cs.AI
Resumen
Los métodos recientes de edición de imágenes basados en difusión han avanzado significativamente en tareas guiadas por texto, pero a menudo tienen dificultades para interpretar instrucciones complejas e indirectas. Además, los modelos actuales frecuentemente presentan problemas de preservación de identidad, ediciones no deseadas o dependen en gran medida de máscaras manuales. Para abordar estos desafíos, presentamos X-Planner, un sistema de planificación basado en un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) que efectivamente conecta la intención del usuario con las capacidades del modelo de edición. X-Planner emplea razonamiento en cadena de pensamiento para descomponer sistemáticamente instrucciones complejas en sub-instrucciones más simples y claras. Para cada sub-instrucción, X-Planner genera automáticamente tipos de edición precisos y máscaras de segmentación, eliminando la intervención manual y asegurando ediciones localizadas que preservan la identidad. Adicionalmente, proponemos una nueva pipeline automatizada para generar datos a gran escala que entrenan a X-Planner, logrando resultados de vanguardia tanto en benchmarks existentes como en nuestro nuevo benchmark de edición compleja.
English
Recent diffusion-based image editing methods have significantly advanced
text-guided tasks but often struggle to interpret complex, indirect
instructions. Moreover, current models frequently suffer from poor identity
preservation, unintended edits, or rely heavily on manual masks. To address
these challenges, we introduce X-Planner, a Multimodal Large Language Model
(MLLM)-based planning system that effectively bridges user intent with editing
model capabilities. X-Planner employs chain-of-thought reasoning to
systematically decompose complex instructions into simpler, clear
sub-instructions. For each sub-instruction, X-Planner automatically generates
precise edit types and segmentation masks, eliminating manual intervention and
ensuring localized, identity-preserving edits. Additionally, we propose a novel
automated pipeline for generating large-scale data to train X-Planner which
achieves state-of-the-art results on both existing benchmarks and our newly
introduced complex editing benchmark.