MagicScroll : Génération d'images à rapport d'aspect atypique pour la narration visuelle via un débruitage multicouche sémantiquement conscient

papers.abstract

La narration visuelle utilise souvent des images avec des rapports d'aspect non conventionnels, tels que les peintures en rouleau, les bandes dessinées et les panoramas, pour créer un récit expressif et captivant. Bien que l'IA générative ait connu un grand succès et démontré son potentiel pour transformer l'industrie créative, il reste un défi de générer un contenu cohérent et engageant avec des dimensions arbitraires et un style, un concept et une disposition contrôlables, éléments essentiels pour la narration visuelle. Pour surmonter les limites des méthodes précédentes, notamment la répétition du contenu, l'incohérence stylistique et le manque de contrôle, nous proposons MagicScroll, un cadre de génération d'images basé sur une diffusion progressive multicouche avec un nouveau processus de réduction du bruit sémantique. Ce modèle permet un contrôle précis de l'image générée au niveau des objets, des scènes et des arrière-plans, grâce à des conditions textuelles, visuelles et de mise en page. Nous établissons également le premier benchmark pour la génération d'images avec des rapports d'aspect non conventionnels dans le cadre de la narration visuelle, incluant des médiums comme les peintures, les bandes dessinées et les panoramas cinématographiques, avec des métriques personnalisées pour une évaluation systématique. Grâce à des études comparatives et d'ablation, MagicScroll démontre des résultats prometteurs en termes d'alignement avec le texte narratif, d'amélioration de la cohérence visuelle et d'engagement du public. Nous prévoyons de publier le code et le benchmark dans l'espoir d'une meilleure collaboration entre les chercheurs en IA et les praticiens créatifs impliqués dans la narration visuelle.

English

Visual storytelling often uses nontypical aspect-ratio images like scroll paintings, comic strips, and panoramas to create an expressive and compelling narrative. While generative AI has achieved great success and shown the potential to reshape the creative industry, it remains a challenge to generate coherent and engaging content with arbitrary size and controllable style, concept, and layout, all of which are essential for visual storytelling. To overcome the shortcomings of previous methods including repetitive content, style inconsistency, and lack of controllability, we propose MagicScroll, a multi-layered, progressive diffusion-based image generation framework with a novel semantic-aware denoising process. The model enables fine-grained control over the generated image on object, scene, and background levels with text, image, and layout conditions. We also establish the first benchmark for nontypical aspect-ratio image generation for visual storytelling including mediums like paintings, comics, and cinematic panoramas, with customized metrics for systematic evaluation. Through comparative and ablation studies, MagicScroll showcases promising results in aligning with the narrative text, improving visual coherence, and engaging the audience. We plan to release the code and benchmark in the hope of a better collaboration between AI researchers and creative practitioners involving visual storytelling.

MagicScroll : Génération d'images à rapport d'aspect atypique pour la narration visuelle via un débruitage multicouche sémantiquement conscient

MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising

papers.abstract

Support