캔버스-이미지 변환: 다중 모드 제어를 통한 구성적 이미지 생성
Canvas-to-Image: Compositional Image Generation with Multimodal Controls
November 26, 2025
저자: Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
cs.AI
초록
현대 확산 모델은 고품질이고 다양한 이미지를 생성하는 데 뛰어나지만, 특히 사용자가 텍스트 프롬프트, 대상 참조, 공간 배치, 포즈 제약 조건, 레이아웃 주석 등을 동시에 지정하는 경우, 높은 정밀도의 구성적 및 다중 모드 제어에는 여전히 어려움을 겪습니다. 본 논문에서는 이러한 이질적인 제어 요소들을 단일 캔버스 인터페이스로 통합하여 사용자의 의도를 충실히 반영하는 이미지를 생성할 수 있도록 하는 통합 프레임워크인 Canvas-to-Image를 소개합니다. 우리의 핵심 아이디어는 다양한 제어 신호들을 모델이 통합된 시각-공간 추론을 위해 직접 해석할 수 있는 단일 복합 캔버스 이미지로 인코딩하는 것입니다. 또한 다중 작업 데이터 세트를 구축하고, 통합 학습 패러다임 내에서 확산 모델이 이질적인 제어 요소들을 이해하고 텍스트-이미지 생성에 통합하도록 최적화하는 Multi-Task Canvas Training 전략을 제안합니다. 이러한 공동 학습을 통해 Canvas-to-Image는 작업별 휴리스틱에 의존하기보다는 여러 제어 양식을 가로지르는 추론이 가능하며, 추론 과정에서 다중 제어 시나리오에 대해 우수한 일반화 성능을 보입니다. 광범위한 실험을 통해 Canvas-to-Image가 다중 인물 구성, 포즈 제어 구성, 레이아웃 제약 생성, 다중 제어 생성을 포함한 까다로운 벤치마크에서 정체성 보존과 제어 준수 측면에서 최첨단 방법들을 크게 능가함을 입증했습니다.
English
While modern diffusion models excel at generating high-quality and diverse images, they still struggle with high-fidelity compositional and multimodal control, particularly when users simultaneously specify text prompts, subject references, spatial arrangements, pose constraints, and layout annotations. We introduce Canvas-to-Image, a unified framework that consolidates these heterogeneous controls into a single canvas interface, enabling users to generate images that faithfully reflect their intent. Our key idea is to encode diverse control signals into a single composite canvas image that the model can directly interpret for integrated visual-spatial reasoning. We further curate a suite of multi-task datasets and propose a Multi-Task Canvas Training strategy that optimizes the diffusion model to jointly understand and integrate heterogeneous controls into text-to-image generation within a unified learning paradigm. This joint training enables Canvas-to-Image to reason across multiple control modalities rather than relying on task-specific heuristics, and it generalizes well to multi-control scenarios during inference. Extensive experiments show that Canvas-to-Image significantly outperforms state-of-the-art methods in identity preservation and control adherence across challenging benchmarks, including multi-person composition, pose-controlled composition, layout-constrained generation, and multi-control generation.