DreamingComics: Eine Story-Visualisierungspipeline mittels subjekt- und layoutangepasster Generierung unter Verwendung von Videomodellen
DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models
December 1, 2025
papers.authors: Patrick Kwon, Chen Chen
cs.AI
papers.abstract
Aktuelle Methoden zur Story-Visualisierung positionieren Subjekte oft nur anhand von Text und haben Schwierigkeiten, künstlerische Konsistenz aufrechtzuerhalten. Um diese Einschränkungen zu adressieren, stellen wir DreamingComics vor, ein layoutbewusstes Framework zur Story-Visualisierung. Wir bauen auf einem vortrainierten Video-Diffusion-Transformer-Modell (DiT) auf und nutzen dessen raumzeitliche Priors, um Identitäts- und Stilkonsistenz zu verbessern. Zur layoutbasierten Positionssteuerung schlagen wir RegionalRoPE vor, ein regionsbewusstes Positionscodierungsschema, das Einbettungen basierend auf dem Ziel-Layout neu indiziert. Zusätzlich führen wir einen maskierten Bedingungsverlust ein, um die visuellen Merkmale jedes Subjekts weiter auf seine vorgesehene Region einzuschränken. Um Layouts aus natürlichen Sprachskripten abzuleiten, integrieren wir einen LLM-basierten Layout-Generator, der darauf trainiert ist, comicartige Layouts zu erzeugen, was flexible und steuerbare Layout-Bedingung ermöglicht. Wir präsentieren eine umfassende Evaluation unseres Ansatzes, die eine Steigerung der Charakterkonsistenz um 29,2 % und der Stilähnlichkeit um 36,2 % im Vergleich zu vorherigen Methoden zeigt, bei gleichzeitig hoher räumlicher Genauigkeit. Unsere Projektseite ist verfügbar unter https://yj7082126.github.io/dreamingcomics/.
English
Current story visualization methods tend to position subjects solely by text and face challenges in maintaining artistic consistency. To address these limitations, we introduce DreamingComics, a layout-aware story visualization framework. We build upon a pretrained video diffusion-transformer (DiT) model, leveraging its spatiotemporal priors to enhance identity and style consistency. For layout-based position control, we propose RegionalRoPE, a region-aware positional encoding scheme that re-indexes embeddings based on the target layout. Additionally, we introduce a masked condition loss to further constrain each subject's visual features to their designated region. To infer layouts from natural language scripts, we integrate an LLM-based layout generator trained to produce comic-style layouts, enabling flexible and controllable layout conditioning. We present a comprehensive evaluation of our approach, showing a 29.2% increase in character consistency and a 36.2% increase in style similarity compared to previous methods, while displaying high spatial accuracy. Our project page is available at https://yj7082126.github.io/dreamingcomics/