ChatPaper.aiChatPaper

MagicQuillV2: Точное и интерактивное редактирование изображений с использованием многоуровневых визуальных подсказок

MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

December 2, 2025
Авторы: Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Shuailei Ma, Ka Leong Cheng, Wen Wang, Qingyan Bai, Yuxuan Zhang, Yanhong Zeng, Yixuan Li, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI

Аннотация

Мы представляем MagicQuill V2 — новую систему, которая вводит парадигму многоуровневой композиции в генеративное редактирование изображений, преодолевая разрыв между семантической мощью диффузионных моделей и детальным контролем традиционного графического программного обеспечения. Хотя диффузионные трансформеры превосходно справляются с целостной генерацией, использование ими единых монолитных промтов не позволяет разделить различные пользовательские интенции, касающиеся содержания, позиционирования и внешнего вида. Для решения этой проблемы наш метод декомпозирует творческий замысел в стек управляемых визуальных сигналов: слой содержания (что создавать), пространственный слой (где разместить), структурный слой (как сформировано) и цветовой слой (палитра). Наши технические достижения включают специализированный пайплайн генерации данных для контекстно-зависимой интеграции контента, унифицированный модуль управления для обработки всех визуальных сигналов и дообученную пространственную ветвь для точного локального редактирования, включая удаление объектов. Многочисленные эксперименты подтверждают, что данный многоуровневый подход эффективно устраняет разрыв в интерпретации намерений пользователя, предоставляя создателям прямой и интуитивный контроль над генеративным процессом.
English
We propose MagicQuill V2, a novel system that introduces a layered composition paradigm to generative image editing, bridging the gap between the semantic power of diffusion models and the granular control of traditional graphics software. While diffusion transformers excel at holistic generation, their use of singular, monolithic prompts fails to disentangle distinct user intentions for content, position, and appearance. To overcome this, our method deconstructs creative intent into a stack of controllable visual cues: a content layer for what to create, a spatial layer for where to place it, a structural layer for how it is shaped, and a color layer for its palette. Our technical contributions include a specialized data generation pipeline for context-aware content integration, a unified control module to process all visual cues, and a fine-tuned spatial branch for precise local editing, including object removal. Extensive experiments validate that this layered approach effectively resolves the user intention gap, granting creators direct, intuitive control over the generative process.
PDF52December 4, 2025