ChatPaper.aiChatPaper

Canvas-to-Image: Kompositionelle Bildgenerierung mit multimodalen Steuerungen

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

November 26, 2025
papers.authors: Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
cs.AI

papers.abstract

Während moderne Diffusionsmodelle bei der Erzeugung hochwertiger und vielfältiger Bilder hervorragende Leistungen erbringen, haben sie nach wie vor Schwierigkeiten mit hochpräziser kompositioneller und multimodaler Steuerung, insbesondere wenn Benutzer gleichzeitig Textprompts, Subjektreferenzen, räumliche Anordnungen, Poseneinschränkungen und Layout-Annotationen vorgeben. Wir stellen Canvas-to-Image vor, ein einheitliches Framework, das diese heterogenen Steuerungsmöglichkeiten in einer einzigen Canvas-Oberfläche zusammenführt und es Benutzern ermöglicht, Bilder zu generieren, die ihre Absicht treu widerspiegeln. Unser zentraler Ansatz ist es, verschiedene Steuersignale in ein einziges zusammengesetztes Canvas-Bild zu kodieren, das das Modell direkt zur integrierten visuell-räumlichen Reasoning interpretieren kann. Wir stellen außerdem einen Satz von Multi-Task-Datensätzen zusammen und schlagen eine Multi-Task-Canvas-Trainingsstrategie vor, die das Diffusionsmodell optimiert, um heterogene Steuerungen innerhalb eines einheitlichen Lernparadigmas gemeinsam zu verstehen und in die Text-zu-Bild-Generierung zu integrieren. Dieses gemeinsame Training ermöglicht es Canvas-to-Image, über mehrere Steuerungsmodalitäten hinweg zu reasoning, anstatt auf aufgabenspezifische Heuristiken angewiesen zu sein, und es verallgemeinert gut auf Multi-Control-Szenarien während der Inferenz. Umfangreiche Experimente zeigen, dass Canvas-to-Image state-of-the-art-Methoden in anspruchsvollen Benchmarks, einschließlich Multi-Person-Composition, posengesteuerter Komposition, layoutbeschränkter Generierung und Multi-Control-Generierung, bei der Identitätserhaltung und Steuerungstreue signifikant übertrifft.
English
While modern diffusion models excel at generating high-quality and diverse images, they still struggle with high-fidelity compositional and multimodal control, particularly when users simultaneously specify text prompts, subject references, spatial arrangements, pose constraints, and layout annotations. We introduce Canvas-to-Image, a unified framework that consolidates these heterogeneous controls into a single canvas interface, enabling users to generate images that faithfully reflect their intent. Our key idea is to encode diverse control signals into a single composite canvas image that the model can directly interpret for integrated visual-spatial reasoning. We further curate a suite of multi-task datasets and propose a Multi-Task Canvas Training strategy that optimizes the diffusion model to jointly understand and integrate heterogeneous controls into text-to-image generation within a unified learning paradigm. This joint training enables Canvas-to-Image to reason across multiple control modalities rather than relying on task-specific heuristics, and it generalizes well to multi-control scenarios during inference. Extensive experiments show that Canvas-to-Image significantly outperforms state-of-the-art methods in identity preservation and control adherence across challenging benchmarks, including multi-person composition, pose-controlled composition, layout-constrained generation, and multi-control generation.
PDF265December 1, 2025