MagicQuillV2: Edição de Imagem Precisas e Interativa com Pistas Visuais em Camadas
MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues
December 2, 2025
Autores: Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Shuailei Ma, Ka Leong Cheng, Wen Wang, Qingyan Bai, Yuxuan Zhang, Yanhong Zeng, Yixuan Li, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI
Resumo
Propomos o MagicQuill V2, um sistema inovador que introduz um paradigma de composição em camadas para a edição generativa de imagens, preenchendo a lacuna entre o poder semântico dos modelos de difusão e o controle granular dos softwares gráficos tradicionais. Embora os transformadores de difusão se destaquem na geração holística, seu uso de *prompts* únicos e monolíticos não consegue separar as distintas intenções do usuário relativas a conteúdo, posição e aparência. Para superar isso, nosso método desconstrói a intenção criativa em uma pilha de pistas visuais controláveis: uma camada de conteúdo para o *o quê* criar, uma camada espacial para *onde* posicioná-lo, uma camada estrutural para *como* ele é formado e uma camada de cores para sua paleta. Nossas contribuições técnicas incluem um *pipeline* especializado de geração de dados para integração de conteúdo consciente do contexto, um módulo de controle unificado para processar todas as pistas visuais e um ramo espacial ajustado para edição local precisa, incluindo remoção de objetos. Experimentos extensivos validam que esta abordagem em camadas resolve efetivamente a lacuna de intenção do usuário, concedendo aos criadores controle direto e intuitivo sobre o processo generativo.
English
We propose MagicQuill V2, a novel system that introduces a layered composition paradigm to generative image editing, bridging the gap between the semantic power of diffusion models and the granular control of traditional graphics software. While diffusion transformers excel at holistic generation, their use of singular, monolithic prompts fails to disentangle distinct user intentions for content, position, and appearance. To overcome this, our method deconstructs creative intent into a stack of controllable visual cues: a content layer for what to create, a spatial layer for where to place it, a structural layer for how it is shaped, and a color layer for its palette. Our technical contributions include a specialized data generation pipeline for context-aware content integration, a unified control module to process all visual cues, and a fine-tuned spatial branch for precise local editing, including object removal. Extensive experiments validate that this layered approach effectively resolves the user intention gap, granting creators direct, intuitive control over the generative process.