MagicScroll: Генерация изображений с нетипичным соотношением сторон для визуального повествования с использованием многослойного семантически осознанного шумоподавления
MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising
December 18, 2023
Авторы: Bingyuan Wang, Hengyu Meng, Zeyu Cai, Lanjiong Li, Yue Ma, Qifeng Chen, Zeyu Wang
cs.AI
Аннотация
Визуальное повествование часто использует изображения с нетипичным соотношением сторон, такие как свитки, комиксы и панорамы, для создания выразительного и увлекательного нарратива. Хотя генеративный искусственный интеллект достиг значительных успехов и продемонстрировал потенциал для преобразования творческой индустрии, создание согласованного и привлекательного контента с произвольным размером и контролируемым стилем, концепцией и компоновкой остается сложной задачей, что является ключевым для визуального повествования. Чтобы преодолеть недостатки предыдущих методов, включая повторяющийся контент, несогласованность стиля и отсутствие управляемости, мы предлагаем MagicScroll — многослойную прогрессивную генеративную модель на основе диффузии с новым семантически осознанным процессом удаления шума. Модель обеспечивает детализированный контроль над генерируемым изображением на уровнях объектов, сцен и фона с использованием текстовых, графических и композиционных условий. Мы также создаем первый эталон для генерации изображений с нетипичным соотношением сторон для визуального повествования, включая такие медиа, как картины, комиксы и кинематографические панорамы, с использованием специализированных метрик для систематической оценки. Благодаря сравнительным и абляционным исследованиям MagicScroll демонстрирует многообещающие результаты в согласовании с текстом повествования, улучшении визуальной согласованности и вовлечении аудитории. Мы планируем опубликовать код и эталонные данные с целью улучшения сотрудничества между исследователями в области ИИ и творческими специалистами, занимающимися визуальным повествованием.
English
Visual storytelling often uses nontypical aspect-ratio images like scroll
paintings, comic strips, and panoramas to create an expressive and compelling
narrative. While generative AI has achieved great success and shown the
potential to reshape the creative industry, it remains a challenge to generate
coherent and engaging content with arbitrary size and controllable style,
concept, and layout, all of which are essential for visual storytelling. To
overcome the shortcomings of previous methods including repetitive content,
style inconsistency, and lack of controllability, we propose MagicScroll, a
multi-layered, progressive diffusion-based image generation framework with a
novel semantic-aware denoising process. The model enables fine-grained control
over the generated image on object, scene, and background levels with text,
image, and layout conditions. We also establish the first benchmark for
nontypical aspect-ratio image generation for visual storytelling including
mediums like paintings, comics, and cinematic panoramas, with customized
metrics for systematic evaluation. Through comparative and ablation studies,
MagicScroll showcases promising results in aligning with the narrative text,
improving visual coherence, and engaging the audience. We plan to release the
code and benchmark in the hope of a better collaboration between AI researchers
and creative practitioners involving visual storytelling.