Canvas-to-Image: Compositionele Beeldgeneratie met Multimodale Controles
Canvas-to-Image: Compositional Image Generation with Multimodal Controls
November 26, 2025
Auteurs: Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
cs.AI
Samenvatting
Hoewel moderne diffusiemodellen uitblinken in het genereren van hoogwaardige en diverse afbeeldingen, hebben ze nog steeds moeite met compositorische en multimodale controle van hoge betrouwbaarheid, vooral wanneer gebruikers tegelijkertijd tekstprompts, onderwerpverwijzingen, ruimtelijke arrangementen, posebeperkingen en lay-outannotaties specificeren. Wij introduceren Canvas-to-Image, een uniform kader dat deze heterogene controles consolideert in een enkel canvas-interface, waardoor gebruikers afbeeldingen kunnen genereren die hun intentie getrouw weerspiegelen. Onze kernidee is om diverse controlesignalen te coderen in een enkele samengestelde canvasafbeelding die het model direct kan interpreteren voor geïntegreerd visueel-ruimtelijk redeneren. Verder stellen we een reeks multi-taskdatasets samen en stellen we een Multi-Task Canvas Trainingsstrategie voor die het diffusiemodel optimaliseert om gezamenlijk heterogene controles te begrijpen en te integreren in tekst-naar-afbeelding-generatie binnen een uniform leerparadigma. Deze gezamenlijke training stelt Canvas-to-Image in staat te redeneren over meerdere controlemodaliteiten in plaats van te vertrouwen op taakspecifieke heuristieken, en het generaliseert goed naar multi-controlescenario's tijdens inferentie. Uitgebreide experimenten tonen aan dat Canvas-to-Image state-of-the-art methoden significant overtreft in identiteitsbehoud en controle-naleving op uitdagende benchmarks, waaronder compositie met meerdere personen, pose-gestuurde compositie, lay-out-beperkte generatie en generatie met meerdere controles.
English
While modern diffusion models excel at generating high-quality and diverse images, they still struggle with high-fidelity compositional and multimodal control, particularly when users simultaneously specify text prompts, subject references, spatial arrangements, pose constraints, and layout annotations. We introduce Canvas-to-Image, a unified framework that consolidates these heterogeneous controls into a single canvas interface, enabling users to generate images that faithfully reflect their intent. Our key idea is to encode diverse control signals into a single composite canvas image that the model can directly interpret for integrated visual-spatial reasoning. We further curate a suite of multi-task datasets and propose a Multi-Task Canvas Training strategy that optimizes the diffusion model to jointly understand and integrate heterogeneous controls into text-to-image generation within a unified learning paradigm. This joint training enables Canvas-to-Image to reason across multiple control modalities rather than relying on task-specific heuristics, and it generalizes well to multi-control scenarios during inference. Extensive experiments show that Canvas-to-Image significantly outperforms state-of-the-art methods in identity preservation and control adherence across challenging benchmarks, including multi-person composition, pose-controlled composition, layout-constrained generation, and multi-control generation.