ChatPaper.aiChatPaper

MagicQuillV2:レイヤー化された視覚的手がかりによる精密で対話的な画像編集

MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

December 2, 2025
著者: Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Shuailei Ma, Ka Leong Cheng, Wen Wang, Qingyan Bai, Yuxuan Zhang, Yanhong Zeng, Yixuan Li, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI

要旨

我々はMagicQuill V2を提案する。これは、生成的な画像編集に階層的な合成パラダイムを導入する新規システムであり、拡散モデルの意味論的能力と従来のグラフィックスソフトウェアの詳細な制御性との間の隔たりを埋めるものである。拡散トランスフォーマーは全体的な生成に優れるが、単一の包括的なプロンプトを使用するため、コンテンツ、位置、外観といった異なるユーザー意図を分離して扱うことができない。この課題を克服するため、本手法は創造的意図を制御可能な視覚的キュー群へと分解する。すなわち、何を作成するかのコンテンツ層、どこに配置するかの空間層、どのように形状づけるかの構造層、そしてその配色パレットを担う色層である。我々の技術的貢献は、文脈を考慮したコンテンツ統合のための専用データ生成パイプライン、全ての視覚的キューを処理する統一制御モジュール、オブジェクト除去を含む精密な局所編集のためのファインチューニングされた空間分岐を含む。大規模な実験により、この階層的アプローチがユーザー意図の隔たりを効果的に解決し、創造者に生成プロセスに対する直接的で直感的な制御を付与することが実証された。
English
We propose MagicQuill V2, a novel system that introduces a layered composition paradigm to generative image editing, bridging the gap between the semantic power of diffusion models and the granular control of traditional graphics software. While diffusion transformers excel at holistic generation, their use of singular, monolithic prompts fails to disentangle distinct user intentions for content, position, and appearance. To overcome this, our method deconstructs creative intent into a stack of controllable visual cues: a content layer for what to create, a spatial layer for where to place it, a structural layer for how it is shaped, and a color layer for its palette. Our technical contributions include a specialized data generation pipeline for context-aware content integration, a unified control module to process all visual cues, and a fine-tuned spatial branch for precise local editing, including object removal. Extensive experiments validate that this layered approach effectively resolves the user intention gap, granting creators direct, intuitive control over the generative process.
PDF52December 4, 2025