MagicScroll: Geração de Imagens com Proporções Atípicas para Narrativas Visuais por meio de Desruído Semântico Multicamadas
MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising
December 18, 2023
Autores: Bingyuan Wang, Hengyu Meng, Zeyu Cai, Lanjiong Li, Yue Ma, Qifeng Chen, Zeyu Wang
cs.AI
Resumo
A narrativa visual frequentemente utiliza imagens com proporções atípicas, como pinturas em rolo, tiras de quadrinhos e panoramas, para criar uma narrativa expressiva e envolvente. Embora a IA generativa tenha alcançado grande sucesso e demonstrado o potencial de transformar a indústria criativa, ainda é um desafio gerar conteúdo coerente e cativante com tamanho arbitrário e estilo, conceito e layout controláveis, todos essenciais para a narrativa visual. Para superar as limitações dos métodos anteriores, incluindo conteúdo repetitivo, inconsistência de estilo e falta de controlabilidade, propomos o MagicScroll, um framework de geração de imagens baseado em difusão progressiva e multicamadas, com um novo processo de remoção de ruído semântico. O modelo permite controle refinado sobre a imagem gerada em níveis de objeto, cena e fundo, com condições de texto, imagem e layout. Também estabelecemos o primeiro benchmark para geração de imagens com proporções atípicas para narrativa visual, incluindo mídias como pinturas, quadrinhos e panoramas cinematográficos, com métricas personalizadas para avaliação sistemática. Por meio de estudos comparativos e de ablação, o MagicScroll demonstra resultados promissores em alinhar-se ao texto narrativo, melhorar a coerência visual e engajar o público. Planejamos liberar o código e o benchmark na esperança de uma melhor colaboração entre pesquisadores de IA e profissionais criativos envolvidos em narrativa visual.
English
Visual storytelling often uses nontypical aspect-ratio images like scroll
paintings, comic strips, and panoramas to create an expressive and compelling
narrative. While generative AI has achieved great success and shown the
potential to reshape the creative industry, it remains a challenge to generate
coherent and engaging content with arbitrary size and controllable style,
concept, and layout, all of which are essential for visual storytelling. To
overcome the shortcomings of previous methods including repetitive content,
style inconsistency, and lack of controllability, we propose MagicScroll, a
multi-layered, progressive diffusion-based image generation framework with a
novel semantic-aware denoising process. The model enables fine-grained control
over the generated image on object, scene, and background levels with text,
image, and layout conditions. We also establish the first benchmark for
nontypical aspect-ratio image generation for visual storytelling including
mediums like paintings, comics, and cinematic panoramas, with customized
metrics for systematic evaluation. Through comparative and ablation studies,
MagicScroll showcases promising results in aligning with the narrative text,
improving visual coherence, and engaging the audience. We plan to release the
code and benchmark in the hope of a better collaboration between AI researchers
and creative practitioners involving visual storytelling.