Canvas-to-Image: Geração Composicional de Imagens com Controles Multimodais
Canvas-to-Image: Compositional Image Generation with Multimodal Controls
November 26, 2025
Autores: Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
cs.AI
Resumo
Embora os modelos modernos de difusão se destaquem na geração de imagens de alta qualidade e diversidade, eles ainda enfrentam dificuldades com controle composicional e multimodal de alta fidelidade, especialmente quando os usuários especificam simultaneamente prompts de texto, referências de assunto, arranjos espaciais, restrições de pose e anotações de layout. Apresentamos o Canvas-to-Image, uma estrutura unificada que consolida esses controles heterogêneos em uma única interface de tela, permitindo que os usuários gerem imagens que reflitam fielmente sua intenção. Nossa ideia principal é codificar diversos sinais de controle em uma única imagem de tela composta que o modelo pode interpretar diretamente para um raciocínio visuo-espacial integrado. Além disso, curadamos um conjunto de dados de multitarefa e propomos uma Estratégia de Treinamento de Tela Multitarefa que otimiza o modelo de difusão para compreender e integrar conjuntamente controles heterogêneos na geração de texto para imagem dentro de um paradigma de aprendizagem unificado. Este treinamento conjunto permite que o Canvas-to-Image raciocine através de múltiplas modalidades de controle, em vez de depender de heurísticas específicas por tarefa, e generaliza bem para cenários de múltiplos controles durante a inferência. Experimentos extensivos mostram que o Canvas-to-Image supera significativamente os métodos state-of-the-art na preservação de identidade e aderência ao controle em benchmarks desafiadores, incluindo composição multipessoal, composição controlada por pose, geração restrita por layout e geração com múltiplos controles.
English
While modern diffusion models excel at generating high-quality and diverse images, they still struggle with high-fidelity compositional and multimodal control, particularly when users simultaneously specify text prompts, subject references, spatial arrangements, pose constraints, and layout annotations. We introduce Canvas-to-Image, a unified framework that consolidates these heterogeneous controls into a single canvas interface, enabling users to generate images that faithfully reflect their intent. Our key idea is to encode diverse control signals into a single composite canvas image that the model can directly interpret for integrated visual-spatial reasoning. We further curate a suite of multi-task datasets and propose a Multi-Task Canvas Training strategy that optimizes the diffusion model to jointly understand and integrate heterogeneous controls into text-to-image generation within a unified learning paradigm. This joint training enables Canvas-to-Image to reason across multiple control modalities rather than relying on task-specific heuristics, and it generalizes well to multi-control scenarios during inference. Extensive experiments show that Canvas-to-Image significantly outperforms state-of-the-art methods in identity preservation and control adherence across challenging benchmarks, including multi-person composition, pose-controlled composition, layout-constrained generation, and multi-control generation.