**DreamingComics: ビデオモデルを用いた被写体とレイアウトをカスタマイズ可能なストーリー可視化パイプライン**
DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models
December 1, 2025
著者: Patrick Kwon, Chen Chen
cs.AI
要旨
現在のストーリー可視化手法は、被写体の配置をテキストのみに依存する傾向があり、芸術的一貫性の維持に課題を抱えています。これらの限界を克服するため、我々はレイアウトを考慮したストーリー可視化フレームワーク「DreamingComics」を提案します。事前学習済みのビデオ拡散トランスフォーマー(DiT)モデルを基盤とし、その時空間的な事前知識を活用することで、アイデンティティとスタイルの一貫性を強化します。レイアウトに基づく位置制御のために、対象レイアウトに基づいて埋め込みを再索引付する領域認識位置符号化方式「RegionalRoPE」を提案します。さらに、マスク条件付き損失を導入し、各被写体の視覚的特徴を指定領域に制約します。自然言語スクリプトからレイアウトを推論するため、漫画風レイアウトを生成するように学習させたLLMベースのレイアウト生成器を統合し、柔軟で制御可能なレイアウト条件付けを実現します。本手法を包括的に評価した結果、従来手法と比較してキャラクター一貫性が29.2%、スタイル類似性が36.2%向上し、高い空間精度を示すことを確認しました。プロジェクトページはhttps://yj7082126.github.io/dreamingcomics/で公開されています。
English
Current story visualization methods tend to position subjects solely by text and face challenges in maintaining artistic consistency. To address these limitations, we introduce DreamingComics, a layout-aware story visualization framework. We build upon a pretrained video diffusion-transformer (DiT) model, leveraging its spatiotemporal priors to enhance identity and style consistency. For layout-based position control, we propose RegionalRoPE, a region-aware positional encoding scheme that re-indexes embeddings based on the target layout. Additionally, we introduce a masked condition loss to further constrain each subject's visual features to their designated region. To infer layouts from natural language scripts, we integrate an LLM-based layout generator trained to produce comic-style layouts, enabling flexible and controllable layout conditioning. We present a comprehensive evaluation of our approach, showing a 29.2% increase in character consistency and a 36.2% increase in style similarity compared to previous methods, while displaying high spatial accuracy. Our project page is available at https://yj7082126.github.io/dreamingcomics/