ChatPaper.aiChatPaper

MagicQuillV2: Nauwkeurige en Interactieve Afbeeldingsbewerking met Gelaagde Visuele Cues

MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

December 2, 2025
Auteurs: Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Shuailei Ma, Ka Leong Cheng, Wen Wang, Qingyan Bai, Yuxuan Zhang, Yanhong Zeng, Yixuan Li, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI

Samenvatting

Wij presenteren MagicQuill V2, een nieuw systeem dat een gelaagd compositieparadigma introduceert voor generatieve beeldbewerking, en zo de kloof overbrugt tussen de semantische kracht van diffusiemodellen en de gedetailleerde controle van traditionele grafische software. Hoewel diffusietransformers uitblinken in holistische generatie, faalt hun gebruik van enkelvoudige, monolithische prompts om onderscheiden gebruikersintenties voor inhoud, positie en uiterlijk te ontwarren. Om dit te overwinnen, deconstrueert onze methode creatieve intentie in een stapel van controleerbare visuele aanwijzingen: een inhoudslaag voor *wat* er gecreëerd moet worden, een ruimtelijke laag voor *waar* het geplaatst moet worden, een structurele laag voor *hoe* het gevormd is, en een kleurlaag voor het palet. Onze technische bijdragen omvatten een gespecialiseerde pijplijn voor datageneratie voor contextbewuste integratie van inhoud, een uniforme controlemodule om alle visuele aanwijzingen te verwerken, en een verfijnde ruimtelijke tak voor precieze lokale bewerking, inclusief objectverwijdering. Uitgebreide experimenten valideren dat deze gelaagde aanpak de kloof in gebruikersintentie effectief oplost, waardoor makers directe, intuïtieve controle over het generatieve proces krijgen.
English
We propose MagicQuill V2, a novel system that introduces a layered composition paradigm to generative image editing, bridging the gap between the semantic power of diffusion models and the granular control of traditional graphics software. While diffusion transformers excel at holistic generation, their use of singular, monolithic prompts fails to disentangle distinct user intentions for content, position, and appearance. To overcome this, our method deconstructs creative intent into a stack of controllable visual cues: a content layer for what to create, a spatial layer for where to place it, a structural layer for how it is shaped, and a color layer for its palette. Our technical contributions include a specialized data generation pipeline for context-aware content integration, a unified control module to process all visual cues, and a fine-tuned spatial branch for precise local editing, including object removal. Extensive experiments validate that this layered approach effectively resolves the user intention gap, granting creators direct, intuitive control over the generative process.
PDF52December 4, 2025