ChatPaper.aiChatPaper

MagicQuillV2: Modifica Precisa e Interattiva delle Immagini con Suggerimenti Visivi a Livelli

MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

December 2, 2025
Autori: Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Shuailei Ma, Ka Leong Cheng, Wen Wang, Qingyan Bai, Yuxuan Zhang, Yanhong Zeng, Yixuan Li, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI

Abstract

Proponiamo MagicQuill V2, un sistema innovativo che introduce un paradigma di composizione a livelli nell'editing generativo di immagini, colmando il divario tra la potenza semantica dei modelli di diffusione e il controllo granulare dei software grafici tradizionali. Sebbene i transformer di diffusione eccellano nella generazione olistica, il loro uso di prompt singolari e monolitici non riesce a districare le distinte intenzioni dell'utente relative a contenuto, posizione e aspetto. Per superare questa limitazione, il nostro metodo scompone l'intento creativo in una pila di suggerimenti visivi controllabili: un livello di contenuto per *cosa* creare, un livello spaziale per *dove* posizionarlo, un livello strutturale per *come* è modellato e un livello colore per la sua palette. I nostri contributi tecnici includono una pipeline specializzata per la generazione di dati per l'integrazione di contenuti consapevole del contesto, un modulo di controllo unificato per elaborare tutti i suggerimenti visivi e un ramo spaziale messo a punto per un editing locale di precisione, inclusa la rimozione di oggetti. Esperimenti estensivi convalidano che questo approccio a livelli risolve efficacemente il divario dell'intenzione dell'utente, conferendo ai creativi un controllo diretto e intuitivo sul processo generativo.
English
We propose MagicQuill V2, a novel system that introduces a layered composition paradigm to generative image editing, bridging the gap between the semantic power of diffusion models and the granular control of traditional graphics software. While diffusion transformers excel at holistic generation, their use of singular, monolithic prompts fails to disentangle distinct user intentions for content, position, and appearance. To overcome this, our method deconstructs creative intent into a stack of controllable visual cues: a content layer for what to create, a spatial layer for where to place it, a structural layer for how it is shaped, and a color layer for its palette. Our technical contributions include a specialized data generation pipeline for context-aware content integration, a unified control module to process all visual cues, and a fine-tuned spatial branch for precise local editing, including object removal. Extensive experiments validate that this layered approach effectively resolves the user intention gap, granting creators direct, intuitive control over the generative process.
PDF52December 4, 2025