Canvas-to-Image : Génération d'images compositionnelles avec contrôles multimodaux
Canvas-to-Image: Compositional Image Generation with Multimodal Controls
November 26, 2025
papers.authors: Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
cs.AI
papers.abstract
Bien que les modèles de diffusion modernes excellent dans la génération d'images de haute qualité et diversifiées, ils peinent encore à assurer un contrôle compositionnel et multimodal de haute fidélité, particulièrement lorsque les utilisateurs spécifient simultanément des invites textuelles, des références de sujets, des arrangements spatiaux, des contraintes de pose et des annotations de mise en page. Nous présentons Canvas-to-Image, un framework unifié qui consolide ces contrôles hétérogènes dans une interface canvas unique, permettant aux utilisateurs de générer des images qui reflètent fidèlement leur intention. Notre idée clé est d'encoder des signaux de contrôle divers dans une image canvas composite unique que le modèle peut interpréter directement pour un raisonnement visio-spatial intégré. Nous constituons ensuite un ensemble de données multi-tâches et proposons une stratégie d'Entraînement Canvas Multi-Tâches qui optimise le modèle de diffusion pour comprendre et intégrer conjointement des contrôles hétérogènes dans la génération texte-image au sein d'un paradigme d'apprentissage unifié. Cet entraînement conjoint permet à Canvas-to-Image de raisonner sur plusieurs modalités de contrôle plutôt que de dépendre d'heuristiques spécifiques à une tâche, et il généralise bien aux scénarios multi-contrôles lors de l'inférence. Des expériences approfondies montrent que Canvas-to-Image surpasse significativement les méthodes state-of-the-art en matière de préservation de l'identité et de respect du contrôle sur des benchmarks exigeants, incluant la composition multi-personnes, la composition contrôlée par la pose, la génération contrainte par la mise en page et la génération multi-contrôles.
English
While modern diffusion models excel at generating high-quality and diverse images, they still struggle with high-fidelity compositional and multimodal control, particularly when users simultaneously specify text prompts, subject references, spatial arrangements, pose constraints, and layout annotations. We introduce Canvas-to-Image, a unified framework that consolidates these heterogeneous controls into a single canvas interface, enabling users to generate images that faithfully reflect their intent. Our key idea is to encode diverse control signals into a single composite canvas image that the model can directly interpret for integrated visual-spatial reasoning. We further curate a suite of multi-task datasets and propose a Multi-Task Canvas Training strategy that optimizes the diffusion model to jointly understand and integrate heterogeneous controls into text-to-image generation within a unified learning paradigm. This joint training enables Canvas-to-Image to reason across multiple control modalities rather than relying on task-specific heuristics, and it generalizes well to multi-control scenarios during inference. Extensive experiments show that Canvas-to-Image significantly outperforms state-of-the-art methods in identity preservation and control adherence across challenging benchmarks, including multi-person composition, pose-controlled composition, layout-constrained generation, and multi-control generation.