Canvas-to-Image: Generación Composicional de Imágenes con Controles Multimodales
Canvas-to-Image: Compositional Image Generation with Multimodal Controls
November 26, 2025
Autores: Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
cs.AI
Resumen
Si bien los modelos de difusión modernos sobresalen en generar imágenes de alta calidad y diversidad, aún presentan dificultades para lograr un control compositivo y multimodal de alta fidelidad, especialmente cuando los usuarios especifican simultáneamente indicaciones de texto, referencias de sujetos, disposiciones espaciales, restricciones de pose y anotaciones de diseño. Presentamos Canvas-to-Image, un marco unificado que consolida estos controles heterogéneos en una única interfaz de lienzo, permitiendo a los usuarios generar imágenes que reflejen fielmente su intención. Nuestra idea clave es codificar diversas señales de control en una única imagen de lienzo compuesta que el modelo pueda interpretar directamente para un razonamiento visual-espacial integrado. Además, seleccionamos un conjunto de datos de múltiples tareas y proponemos una estrategia de Entrenamiento de Lienzo Multi-Tarea que optimiza el modelo de difusión para comprender e integrar conjuntamente controles heterogéneos en la generación de texto a imagen dentro de un paradigma de aprendizaje unificado. Este entrenamiento conjunto permite a Canvas-to-Image razonar a través de múltiples modalidades de control en lugar de depender de heurísticas específicas por tarea, y generaliza bien a escenarios de control múltiple durante la inferencia. Experimentos exhaustivos demuestran que Canvas-to-Image supera significativamente a los métodos de vanguardia en preservación de identidad y adherencia al control en puntos de referencia desafiantes, incluyendo composición multi-persona, composición controlada por pose, generación restringida por diseño y generación con controles múltiples.
English
While modern diffusion models excel at generating high-quality and diverse images, they still struggle with high-fidelity compositional and multimodal control, particularly when users simultaneously specify text prompts, subject references, spatial arrangements, pose constraints, and layout annotations. We introduce Canvas-to-Image, a unified framework that consolidates these heterogeneous controls into a single canvas interface, enabling users to generate images that faithfully reflect their intent. Our key idea is to encode diverse control signals into a single composite canvas image that the model can directly interpret for integrated visual-spatial reasoning. We further curate a suite of multi-task datasets and propose a Multi-Task Canvas Training strategy that optimizes the diffusion model to jointly understand and integrate heterogeneous controls into text-to-image generation within a unified learning paradigm. This joint training enables Canvas-to-Image to reason across multiple control modalities rather than relying on task-specific heuristics, and it generalizes well to multi-control scenarios during inference. Extensive experiments show that Canvas-to-Image significantly outperforms state-of-the-art methods in identity preservation and control adherence across challenging benchmarks, including multi-person composition, pose-controlled composition, layout-constrained generation, and multi-control generation.