MagicScroll : Génération d'images à rapport d'aspect atypique pour la narration visuelle via un débruitage multicouche sémantiquement conscient
MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising
December 18, 2023
Auteurs: Bingyuan Wang, Hengyu Meng, Zeyu Cai, Lanjiong Li, Yue Ma, Qifeng Chen, Zeyu Wang
cs.AI
Résumé
La narration visuelle utilise souvent des images avec des rapports d'aspect non conventionnels, tels que les peintures en rouleau, les bandes dessinées et les panoramas, pour créer un récit expressif et captivant. Bien que l'IA générative ait connu un grand succès et démontré son potentiel pour transformer l'industrie créative, il reste un défi de générer un contenu cohérent et engageant avec des dimensions arbitraires et un style, un concept et une disposition contrôlables, éléments essentiels pour la narration visuelle. Pour surmonter les limites des méthodes précédentes, notamment la répétition du contenu, l'incohérence stylistique et le manque de contrôle, nous proposons MagicScroll, un cadre de génération d'images basé sur une diffusion progressive multicouche avec un nouveau processus de réduction du bruit sémantique. Ce modèle permet un contrôle précis de l'image générée au niveau des objets, des scènes et des arrière-plans, grâce à des conditions textuelles, visuelles et de mise en page. Nous établissons également le premier benchmark pour la génération d'images avec des rapports d'aspect non conventionnels dans le cadre de la narration visuelle, incluant des médiums comme les peintures, les bandes dessinées et les panoramas cinématographiques, avec des métriques personnalisées pour une évaluation systématique. Grâce à des études comparatives et d'ablation, MagicScroll démontre des résultats prometteurs en termes d'alignement avec le texte narratif, d'amélioration de la cohérence visuelle et d'engagement du public. Nous prévoyons de publier le code et le benchmark dans l'espoir d'une meilleure collaboration entre les chercheurs en IA et les praticiens créatifs impliqués dans la narration visuelle.
English
Visual storytelling often uses nontypical aspect-ratio images like scroll
paintings, comic strips, and panoramas to create an expressive and compelling
narrative. While generative AI has achieved great success and shown the
potential to reshape the creative industry, it remains a challenge to generate
coherent and engaging content with arbitrary size and controllable style,
concept, and layout, all of which are essential for visual storytelling. To
overcome the shortcomings of previous methods including repetitive content,
style inconsistency, and lack of controllability, we propose MagicScroll, a
multi-layered, progressive diffusion-based image generation framework with a
novel semantic-aware denoising process. The model enables fine-grained control
over the generated image on object, scene, and background levels with text,
image, and layout conditions. We also establish the first benchmark for
nontypical aspect-ratio image generation for visual storytelling including
mediums like paintings, comics, and cinematic panoramas, with customized
metrics for systematic evaluation. Through comparative and ablation studies,
MagicScroll showcases promising results in aligning with the narrative text,
improving visual coherence, and engaging the audience. We plan to release the
code and benchmark in the hope of a better collaboration between AI researchers
and creative practitioners involving visual storytelling.