MagicQuillV2: Edición Precisa e Interactiva de Imágenes con Pistas Visuales en Capas
MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues
December 2, 2025
Autores: Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Shuailei Ma, Ka Leong Cheng, Wen Wang, Qingyan Bai, Yuxuan Zhang, Yanhong Zeng, Yixuan Li, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI
Resumen
Proponemos MagicQuill V2, un sistema novedoso que introduce un paradigma de composición por capas en la edición generativa de imágenes, cerrando la brecha entre el poder semántico de los modelos de difusión y el control granular del software gráfico tradicional. Si bien los transformadores de difusión sobresalen en la generación holística, su uso de prompts únicos y monolíticos no logra desentrañar las distintas intenciones del usuario sobre contenido, posición y apariencia. Para superar esto, nuestro método deconstruye la intención creativa en una pila de señales visuales controlables: una capa de contenido para *qué* crear, una capa espacial para *dónde* ubicarlo, una capa estructural para *cómo* se conforma y una capa de color para su paleta. Nuestras contribuciones técnicas incluyen una canalización especializada de generación de datos para la integración de contenido consciente del contexto, un módulo de control unificado para procesar todas las señales visuales y una rama espacial ajustada para una edición local precisa, incluida la eliminación de objetos. Experimentos exhaustivos validan que este enfoque por capas resuelve eficazmente la brecha de intención del usuario, otorgando a los creadores un control directo e intuitivo sobre el proceso generativo.
English
We propose MagicQuill V2, a novel system that introduces a layered composition paradigm to generative image editing, bridging the gap between the semantic power of diffusion models and the granular control of traditional graphics software. While diffusion transformers excel at holistic generation, their use of singular, monolithic prompts fails to disentangle distinct user intentions for content, position, and appearance. To overcome this, our method deconstructs creative intent into a stack of controllable visual cues: a content layer for what to create, a spatial layer for where to place it, a structural layer for how it is shaped, and a color layer for its palette. Our technical contributions include a specialized data generation pipeline for context-aware content integration, a unified control module to process all visual cues, and a fine-tuned spatial branch for precise local editing, including object removal. Extensive experiments validate that this layered approach effectively resolves the user intention gap, granting creators direct, intuitive control over the generative process.