MagicScroll: Generazione di Immagini con Rapporti d'Aspetto Non Convenzionali per il Racconto Visivo tramite Denoising Semantico Multi-Livello
MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising
December 18, 2023
Autori: Bingyuan Wang, Hengyu Meng, Zeyu Cai, Lanjiong Li, Yue Ma, Qifeng Chen, Zeyu Wang
cs.AI
Abstract
La narrazione visiva spesso utilizza immagini con rapporti d'aspetto non convenzionali come dipinti a rotolo, strisce di fumetti e panorami per creare una narrazione espressiva e coinvolgente. Sebbene l'IA generativa abbia ottenuto un grande successo e dimostrato il potenziale di trasformare l'industria creativa, rimane una sfida generare contenuti coerenti e coinvolgenti con dimensioni arbitrarie e uno stile, un concetto e un layout controllabili, tutti elementi essenziali per la narrazione visiva. Per superare le carenze dei metodi precedenti, tra cui contenuti ripetitivi, incoerenza stilistica e mancanza di controllabilità, proponiamo MagicScroll, un framework di generazione di immagini basato su diffusione progressiva a più livelli con un nuovo processo di denoising semantico. Il modello consente un controllo fine sull'immagine generata a livello di oggetti, scene e sfondi con condizioni di testo, immagine e layout. Abbiamo inoltre stabilito il primo benchmark per la generazione di immagini con rapporti d'aspetto non convenzionali per la narrazione visiva, includendo mezzi come dipinti, fumetti e panorami cinematografici, con metriche personalizzate per una valutazione sistematica. Attraverso studi comparativi e di ablazione, MagicScroll mostra risultati promettenti nell'allineamento con il testo narrativo, nel migliorare la coerenza visiva e nel coinvolgere il pubblico. Prevediamo di rilasciare il codice e il benchmark nella speranza di una migliore collaborazione tra ricercatori di IA e professionisti creativi coinvolti nella narrazione visiva.
English
Visual storytelling often uses nontypical aspect-ratio images like scroll
paintings, comic strips, and panoramas to create an expressive and compelling
narrative. While generative AI has achieved great success and shown the
potential to reshape the creative industry, it remains a challenge to generate
coherent and engaging content with arbitrary size and controllable style,
concept, and layout, all of which are essential for visual storytelling. To
overcome the shortcomings of previous methods including repetitive content,
style inconsistency, and lack of controllability, we propose MagicScroll, a
multi-layered, progressive diffusion-based image generation framework with a
novel semantic-aware denoising process. The model enables fine-grained control
over the generated image on object, scene, and background levels with text,
image, and layout conditions. We also establish the first benchmark for
nontypical aspect-ratio image generation for visual storytelling including
mediums like paintings, comics, and cinematic panoramas, with customized
metrics for systematic evaluation. Through comparative and ablation studies,
MagicScroll showcases promising results in aligning with the narrative text,
improving visual coherence, and engaging the audience. We plan to release the
code and benchmark in the hope of a better collaboration between AI researchers
and creative practitioners involving visual storytelling.