ChatPaper.aiChatPaper

MagicQuillV2 : Édition d'image précise et interactive avec des indices visuels en couches

MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

December 2, 2025
papers.authors: Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Shuailei Ma, Ka Leong Cheng, Wen Wang, Qingyan Bai, Yuxuan Zhang, Yanhong Zeng, Yixuan Li, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI

papers.abstract

Nous proposons MagicQuill V2, un système novateur qui introduit un paradigme de composition en couches pour l'édition générative d'images, comblant le fossé entre la puissance sémantique des modèles de diffusion et le contrôle granulaire des logiciels graphiques traditionnels. Bien que les transformeurs de diffusion excellent dans la génération holistique, leur utilisation d'invites uniques et monolithiques ne permet pas de dissocier les intentions distinctes de l'utilisateur concernant le contenu, la position et l'apparence. Pour surmonter cette limite, notre méthode décompose l'intention créative en une pile d'indices visuels contrôlables : une couche de contenu pour définir quoi créer, une couche spatiale pour déterminer où le placer, une couche structurelle pour spécifier sa forme et une couche de couleur pour sa palette. Nos contributions techniques incluent un pipeline spécialisé de génération de données pour l'intégration contextuelle du contenu, un module de contrôle unifié pour traiter tous les indices visuels, et une branche spatiale fine-tunée pour un édition locale précise, incluant la suppression d'objets. Des expériences approfondies valident le fait que cette approche en couches résout efficacement l'écart d'intention utilisateur, offrant aux créateurs un contrôle direct et intuitif sur le processus génératif.
English
We propose MagicQuill V2, a novel system that introduces a layered composition paradigm to generative image editing, bridging the gap between the semantic power of diffusion models and the granular control of traditional graphics software. While diffusion transformers excel at holistic generation, their use of singular, monolithic prompts fails to disentangle distinct user intentions for content, position, and appearance. To overcome this, our method deconstructs creative intent into a stack of controllable visual cues: a content layer for what to create, a spatial layer for where to place it, a structural layer for how it is shaped, and a color layer for its palette. Our technical contributions include a specialized data generation pipeline for context-aware content integration, a unified control module to process all visual cues, and a fine-tuned spatial branch for precise local editing, including object removal. Extensive experiments validate that this layered approach effectively resolves the user intention gap, granting creators direct, intuitive control over the generative process.
PDF52December 4, 2025