ChatPaper.aiChatPaper

MagicQuillV2: 계층적 시각적 단서를 통한 정밀하고 상호작용적인 이미지 편집

MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

December 2, 2025
저자: Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Shuailei Ma, Ka Leong Cheng, Wen Wang, Qingyan Bai, Yuxuan Zhang, Yanhong Zeng, Yixuan Li, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI

초록

본 논문에서는 생성적 이미지 편집에 계층적 구성 패러다임을 도입한 새로운 시스템인 MagicQuill V2를 제안한다. 이는 확산 모델의 의미론적 능력과 전통적 그래픽 소프트웨어의 세밀한 제어 간의 간극을 메워준다. 확산 트랜스포머가 전체적 생성에는 뛰어나지만, 단일한 통합형 프롬프트 사용 방식은 콘텐츠, 위치, 외관에 대한 사용자의 상이한 의도를 분리해 내지 못한다. 이를 해결하기 위해 우리의 방법은 창작 의도를 통제 가능한 시각적 단서 스택으로 분해한다: 생성 대상(what)을 위한 콘텐츠 계층, 배치 위치(where)를 위한 공간 계층, 형태 구조(how)를 위한 구조 계층, 색상 팔레트를 위한 색상 계층이 그것이다. 우리의 기술적 기여로는 맥락 인식 콘텐츠 통합을 위한 전용 데이터 생성 파이프라인, 모든 시각적 단서를 처리하는 통합 제어 모듈, 객체 제거를 포함한 정밀한 지역 편집을 위한 미세 조정 공간 분기 모델이 포함된다. 폭넓은 실험을 통해 이 계층적 접근법이 사용자 의도 간극을 효과적으로 해결하여 창작자에게 생성 과정에 대한 직접적이고 직관적인 제어권을 부여함을 입증하였다.
English
We propose MagicQuill V2, a novel system that introduces a layered composition paradigm to generative image editing, bridging the gap between the semantic power of diffusion models and the granular control of traditional graphics software. While diffusion transformers excel at holistic generation, their use of singular, monolithic prompts fails to disentangle distinct user intentions for content, position, and appearance. To overcome this, our method deconstructs creative intent into a stack of controllable visual cues: a content layer for what to create, a spatial layer for where to place it, a structural layer for how it is shaped, and a color layer for its palette. Our technical contributions include a specialized data generation pipeline for context-aware content integration, a unified control module to process all visual cues, and a fine-tuned spatial branch for precise local editing, including object removal. Extensive experiments validate that this layered approach effectively resolves the user intention gap, granting creators direct, intuitive control over the generative process.
PDF52December 4, 2025