ChatPaper.aiChatPaper

Canvas-to-Image: Композиционное генерирование изображений с мультимодальными условиями

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

November 26, 2025
Авторы: Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
cs.AI

Аннотация

Хотя современные диффузионные модели преуспевают в генерации качественных и разнообразных изображений, они по-прежнему испытывают трудности с композиционным и мультимодальным контролем высокой точности, особенно когда пользователи одновременно задают текстовые промпты, ссылки на объекты, пространственные расположения, ограничения по позам и аннотации разметки. Мы представляем Canvas-to-Image — унифицированную структуру, которая объединяет эти гетерогенные элементы управления в единый интерфейс холста, позволяя пользователям генерировать изображения, достоверно отражающие их замысел. Наша ключевая идея заключается в кодировании разнородных управляющих сигналов в единое составное изображение холста, которое модель может напрямую интерпретировать для интегрированного визуально-пространственного анализа. Мы дополнительно курируем набор многозадачных наборов данных и предлагаем стратегию Multi-Task Canvas Training, которая оптимизирует диффузионную модель для совместного понимания и интеграции гетерогенных элементов управления в генерацию изображений по тексту в рамках единой парадигмы обучения. Такое совместное обучение позволяет Canvas-to-Image анализировать несколько модальностей управления вместо reliance на эвристики, специфичные для конкретных задач, и обеспечивает хорошую обобщаемость на сценарии с множественным контролем во время вывода. Многочисленные эксперименты показывают, что Canvas-to-Image значительно превосходит современные методы по сохранению идентичности и соблюдению контроля в сложных тестах, включая композицию нескольких лиц, композицию с управлением позой, генерацию с ограничениями по разметке и генерацию с множественным контролем.
English
While modern diffusion models excel at generating high-quality and diverse images, they still struggle with high-fidelity compositional and multimodal control, particularly when users simultaneously specify text prompts, subject references, spatial arrangements, pose constraints, and layout annotations. We introduce Canvas-to-Image, a unified framework that consolidates these heterogeneous controls into a single canvas interface, enabling users to generate images that faithfully reflect their intent. Our key idea is to encode diverse control signals into a single composite canvas image that the model can directly interpret for integrated visual-spatial reasoning. We further curate a suite of multi-task datasets and propose a Multi-Task Canvas Training strategy that optimizes the diffusion model to jointly understand and integrate heterogeneous controls into text-to-image generation within a unified learning paradigm. This joint training enables Canvas-to-Image to reason across multiple control modalities rather than relying on task-specific heuristics, and it generalizes well to multi-control scenarios during inference. Extensive experiments show that Canvas-to-Image significantly outperforms state-of-the-art methods in identity preservation and control adherence across challenging benchmarks, including multi-person composition, pose-controlled composition, layout-constrained generation, and multi-control generation.
PDF265December 1, 2025