ChatPaper.aiChatPaper

MagicScroll: 視覚的ストーリーテリングのための非典型的アスペクト比画像生成 - 多層セマンティック対応デノイジングを活用して

MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising

December 18, 2023
著者: Bingyuan Wang, Hengyu Meng, Zeyu Cai, Lanjiong Li, Yue Ma, Qifeng Chen, Zeyu Wang
cs.AI

要旨

ビジュアルストーリーテリングでは、巻物、漫画、パノラマなどの非典型的なアスペクト比の画像を使用して、表現力豊かで魅力的な物語を作成することが多い。生成AIは大きな成功を収め、クリエイティブ産業を再構築する可能性を示しているが、任意のサイズで一貫性があり、スタイル、コンセプト、レイアウトを制御可能なコンテンツを生成することは依然として課題である。これらはすべてビジュアルストーリーテリングにおいて不可欠な要素である。従来の手法の欠点である反復的な内容、スタイルの不一致、制御性の欠如を克服するため、我々はMagicScrollを提案する。これは、新しいセマンティックアウェアなノイズ除去プロセスを備えた、多層的で段階的な拡散ベースの画像生成フレームワークである。このモデルは、テキスト、画像、レイアウト条件を用いて、生成される画像のオブジェクト、シーン、背景レベルでの細かい制御を可能にする。また、絵画、漫画、シネマティックパノラマなどの媒体を含む、ビジュアルストーリーテリングのための非典型的なアスペクト比画像生成の最初のベンチマークを確立し、体系的な評価のためのカスタマイズされた指標を設定した。比較研究とアブレーション研究を通じて、MagicScrollは、物語のテキストとの整合性、視覚的な一貫性の向上、観客の関与において有望な結果を示している。我々は、AI研究者とビジュアルストーリーテリングに関わるクリエイティブ実践者とのより良い協力を目指して、コードとベンチマークを公開する予定である。
English
Visual storytelling often uses nontypical aspect-ratio images like scroll paintings, comic strips, and panoramas to create an expressive and compelling narrative. While generative AI has achieved great success and shown the potential to reshape the creative industry, it remains a challenge to generate coherent and engaging content with arbitrary size and controllable style, concept, and layout, all of which are essential for visual storytelling. To overcome the shortcomings of previous methods including repetitive content, style inconsistency, and lack of controllability, we propose MagicScroll, a multi-layered, progressive diffusion-based image generation framework with a novel semantic-aware denoising process. The model enables fine-grained control over the generated image on object, scene, and background levels with text, image, and layout conditions. We also establish the first benchmark for nontypical aspect-ratio image generation for visual storytelling including mediums like paintings, comics, and cinematic panoramas, with customized metrics for systematic evaluation. Through comparative and ablation studies, MagicScroll showcases promising results in aligning with the narrative text, improving visual coherence, and engaging the audience. We plan to release the code and benchmark in the hope of a better collaboration between AI researchers and creative practitioners involving visual storytelling.
PDF151December 15, 2024