ChatPaper.aiChatPaper

MagicQuillV2: Präzise und interaktive Bildbearbeitung mit geschichteten visuellen Hinweisen

MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

December 2, 2025
papers.authors: Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Shuailei Ma, Ka Leong Cheng, Wen Wang, Qingyan Bai, Yuxuan Zhang, Yanhong Zeng, Yixuan Li, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI

papers.abstract

Wir stellen MagicQuill V2 vor, ein neuartiges System, das ein geschichtetes Kompositionsparadigma für die generative Bildbearbeitung einführt und so die Lücke zwischen der semantischen Leistungsfähigkeit von Diffusionsmodellen und der granularen Kontrolle traditioneller Grafiksoftware schließt. Während Diffusion-Transformer bei der holistischen Generierung hervorragend sind, scheitert ihr Einsatz einzelner, monolithischer Prompts daran, unterschiedliche Benutzerabsichten für Inhalt, Position und Erscheinungsbild zu entwirren. Um dies zu überwinden, zerlegt unsere Methode die kreative Absicht in einen Stapel kontrollierbarer visueller Hinweise: eine Inhaltsebene für das *Was* der Erstellung, eine räumliche Ebene für das *Wo* der Platzierung, eine Strukturebene für das *Wie* der Formgebung und eine Farbschicht für die Palette. Unsere technischen Beiträge umfassen eine spezialisierte Pipeline zur Datengenerierung für kontextbewusste Inhaltsintegration, ein einheitliches Kontrollmodul zur Verarbeitung aller visuellen Hinweise und einen feinabgestimmten räumlichen Zweig für präzise lokale Bearbeitung, einschließlich Objektentfernung. Umfangreiche Experimente bestätigen, dass dieser geschichtete Ansatz die Kluft der Benutzerabsicht effektiv auflöst und damit Gestaltern eine direkte, intuitive Kontrolle über den generativen Prozess gewährt.
English
We propose MagicQuill V2, a novel system that introduces a layered composition paradigm to generative image editing, bridging the gap between the semantic power of diffusion models and the granular control of traditional graphics software. While diffusion transformers excel at holistic generation, their use of singular, monolithic prompts fails to disentangle distinct user intentions for content, position, and appearance. To overcome this, our method deconstructs creative intent into a stack of controllable visual cues: a content layer for what to create, a spatial layer for where to place it, a structural layer for how it is shaped, and a color layer for its palette. Our technical contributions include a specialized data generation pipeline for context-aware content integration, a unified control module to process all visual cues, and a fine-tuned spatial branch for precise local editing, including object removal. Extensive experiments validate that this layered approach effectively resolves the user intention gap, granting creators direct, intuitive control over the generative process.
PDF52December 4, 2025