MagicScroll: Generierung von Bildern mit untypischem Seitenverhältnis für visuelles Storytelling durch mehrschichtiges semantikbewusstes Rauschunterdrückungsverfahren
MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising
December 18, 2023
Autoren: Bingyuan Wang, Hengyu Meng, Zeyu Cai, Lanjiong Li, Yue Ma, Qifeng Chen, Zeyu Wang
cs.AI
Zusammenfassung
Visuelles Storytelling verwendet oft Bilder mit untypischen Seitenverhältnissen wie Rollbilder, Comicstreifen und Panoramen, um eine ausdrucksstarke und fesselnde Erzählung zu schaffen. Obwohl generative KI große Erfolge erzielt und das Potenzial gezeigt hat, die Kreativbranche zu verändern, bleibt es eine Herausforderung, kohärente und ansprechende Inhalte mit beliebiger Größe sowie kontrollierbarem Stil, Konzept und Layout zu generieren, die alle für visuelles Storytelling entscheidend sind. Um die Schwächen bisheriger Methoden wie repetitive Inhalte, Stilininkonsistenz und mangelnde Kontrollierbarkeit zu überwinden, schlagen wir MagicScroll vor, ein mehrschichtiges, progressives diffusionsbasiertes Bildgenerierungsframework mit einem neuartigen semantikbewussten Denoising-Prozess. Das Modell ermöglicht eine fein abgestimmte Kontrolle über das generierte Bild auf Objekt-, Szenen- und Hintergrundebene mit Text-, Bild- und Layoutbedingungen. Wir etablieren zudem den ersten Benchmark für die Generierung von Bildern mit untypischen Seitenverhältnissen für visuelles Storytelling, einschließlich Medien wie Gemälde, Comics und filmische Panoramen, mit maßgeschneiderten Metriken für eine systematische Bewertung. Durch vergleichende und Ablationsstudien zeigt MagicScroll vielversprechende Ergebnisse in der Ausrichtung auf den narrativen Text, der Verbesserung der visuellen Kohärenz und der Ansprache des Publikums. Wir planen, den Code und den Benchmark zu veröffentlichen, um eine bessere Zusammenarbeit zwischen KI-Forschern und kreativen Praktikern im Bereich des visuellen Storytellings zu fördern.
English
Visual storytelling often uses nontypical aspect-ratio images like scroll
paintings, comic strips, and panoramas to create an expressive and compelling
narrative. While generative AI has achieved great success and shown the
potential to reshape the creative industry, it remains a challenge to generate
coherent and engaging content with arbitrary size and controllable style,
concept, and layout, all of which are essential for visual storytelling. To
overcome the shortcomings of previous methods including repetitive content,
style inconsistency, and lack of controllability, we propose MagicScroll, a
multi-layered, progressive diffusion-based image generation framework with a
novel semantic-aware denoising process. The model enables fine-grained control
over the generated image on object, scene, and background levels with text,
image, and layout conditions. We also establish the first benchmark for
nontypical aspect-ratio image generation for visual storytelling including
mediums like paintings, comics, and cinematic panoramas, with customized
metrics for systematic evaluation. Through comparative and ablation studies,
MagicScroll showcases promising results in aligning with the narrative text,
improving visual coherence, and engaging the audience. We plan to release the
code and benchmark in the hope of a better collaboration between AI researchers
and creative practitioners involving visual storytelling.