Canvas-to-Image: Generazione Composizionale di Immagini con Controlli Multimodali
Canvas-to-Image: Compositional Image Generation with Multimodal Controls
November 26, 2025
Autori: Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
cs.AI
Abstract
Sebbene i moderni modelli di diffusione eccellano nella generazione di immagini di alta qualità e diversificate, continuano a lottare con un controllo compositivo e multimodale ad alta fedeltà, specialmente quando gli utenti specificano simultaneamente prompt testuali, riferimenti a soggetti, disposizioni spaziali, vincoli di posa e annotazioni di layout. Introduciamo Canvas-to-Image, un framework unificato che consolida questi controlli eterogenei in un'unica interfaccia a canvas, consentendo agli utenti di generare immagini che riflettono fedelmente la loro intenzione. La nostra idea chiave è codificare i diversi segnali di controllo in un'unica immagine composita del canvas che il modello possa interpretare direttamente per un ragionamento visivo-spaziale integrato. Curiamo inoltre una suite di dataset multi-task e proponiamo una strategia di Addestramento su Canvas Multi-Task che ottimizza il modello di diffusione per comprendere e integrare congiuntamente i controlli eterogenei nella generazione di testo-immagine all'interno di un paradigma di apprendimento unificato. Questo addestramento congiunto consente a Canvas-to-Image di ragionare su molteplici modalità di controllo invece di affidarsi a euristiche specifiche per task, e generalizza bene a scenari multi-controllo durante l'inferenza. Esperimenti estensivi mostrano che Canvas-to-Image supera significativamente i metodi all'avanguardia nella conservazione dell'identità e nell'aderenza al controllo su benchmark impegnativi, inclusi la composizione multi-persona, la composizione controllata dalla posa, la generazione vincolata dal layout e la generazione multi-controllo.
English
While modern diffusion models excel at generating high-quality and diverse images, they still struggle with high-fidelity compositional and multimodal control, particularly when users simultaneously specify text prompts, subject references, spatial arrangements, pose constraints, and layout annotations. We introduce Canvas-to-Image, a unified framework that consolidates these heterogeneous controls into a single canvas interface, enabling users to generate images that faithfully reflect their intent. Our key idea is to encode diverse control signals into a single composite canvas image that the model can directly interpret for integrated visual-spatial reasoning. We further curate a suite of multi-task datasets and propose a Multi-Task Canvas Training strategy that optimizes the diffusion model to jointly understand and integrate heterogeneous controls into text-to-image generation within a unified learning paradigm. This joint training enables Canvas-to-Image to reason across multiple control modalities rather than relying on task-specific heuristics, and it generalizes well to multi-control scenarios during inference. Extensive experiments show that Canvas-to-Image significantly outperforms state-of-the-art methods in identity preservation and control adherence across challenging benchmarks, including multi-person composition, pose-controlled composition, layout-constrained generation, and multi-control generation.