Canvas-to-Image:マルチモーダル制御による構成的画像生成
Canvas-to-Image: Compositional Image Generation with Multimodal Controls
November 26, 2025
著者: Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
cs.AI
要旨
現代の拡散モデルは高品質で多様な画像生成に優れているものの、特にテキストプロンプト、被写体参照、空間配置、ポーズ制約、レイアウト注釈などを同時に指定する場合の、高精度な構成的・マルチモーダル制御には依然として課題を抱えています。本論文では、これらの異種制御を単一のキャンバスインターフェースに統合し、ユーザーの意図を忠実に反映した画像生成を可能にする統一フレームワーク「Canvas-to-Image」を提案します。核心となるアイデアは、多様な制御信号を単一の複合キャンバス画像に符号化し、モデルが統合的な視覚的・空間的推論を直接行えるようにすることです。さらに、マルチタスクデータセットを精選し、拡散モデルが統一学習パラダイム内で異種制御を統合的に理解しテキストから画像への生成に組み込むことを最適化する「マルチタスクキャンバス学習」戦略を提案します。この共同学習により、Canvas-to-Imageはタスク固有のヒューリスティクスに依存するのではなく、複数の制御モダリティを横断的に推論し、推論時におけるマルチ制御シナリオにも優れた汎化性能を発揮します。大規模な実験により、Canvas-to-Imageが複数人物の構成、ポーズ制御合成、レイアウト制約生成、マルチ制御生成といった困難なベンチマークにおいて、識別性の維持と制御遵守の両面で最先端手法を大幅に上回ることを実証しました。
English
While modern diffusion models excel at generating high-quality and diverse images, they still struggle with high-fidelity compositional and multimodal control, particularly when users simultaneously specify text prompts, subject references, spatial arrangements, pose constraints, and layout annotations. We introduce Canvas-to-Image, a unified framework that consolidates these heterogeneous controls into a single canvas interface, enabling users to generate images that faithfully reflect their intent. Our key idea is to encode diverse control signals into a single composite canvas image that the model can directly interpret for integrated visual-spatial reasoning. We further curate a suite of multi-task datasets and propose a Multi-Task Canvas Training strategy that optimizes the diffusion model to jointly understand and integrate heterogeneous controls into text-to-image generation within a unified learning paradigm. This joint training enables Canvas-to-Image to reason across multiple control modalities rather than relying on task-specific heuristics, and it generalizes well to multi-control scenarios during inference. Extensive experiments show that Canvas-to-Image significantly outperforms state-of-the-art methods in identity preservation and control adherence across challenging benchmarks, including multi-person composition, pose-controlled composition, layout-constrained generation, and multi-control generation.