DreamingComics: Een Story Visualisatiepijplijn via Onderwerp- en Lay-outgepersonaliseerde Generatie met Videomodellen
DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models
December 1, 2025
Auteurs: Patrick Kwon, Chen Chen
cs.AI
Samenvatting
Huidige methoden voor storyvisualisatie positioneren personages vaak uitsluitend op basis van tekst en hebben moeite met het behouden van artistieke consistentie. Om deze beperkingen aan te pakken, introduceren wij DreamingComics, een layout-bewust raamwerk voor storyvisualisatie. Wij bouwen voort op een vooraf getraind video-diffusie-transformer (DiT) model en benutten de spatiotemporele voorkennis om de identiteits- en stijlconsistentie te verbeteren. Voor layout-gebaseerde positiecontrole stellen wij RegionalRoPE voor, een regio-bewust positioneringscoderingsschema dat embeddings opnieuw indeelt op basis van de doel-layout. Daarnaast introduceren wij een gemaskeerd conditieverlies om de visuele kenmerken van elk personage verder te beperken tot hun toegewezen regio. Om layouts af te leiden uit scripts in natuurlijke taal, integreren wij een op een grote taalmodel (LLM) gebaseerde layoutgenerator die is getraind om stripstijl-layouts te produceren, wat flexibele en controleerbare layout-conditionering mogelijk maakt. Wij presenteren een uitgebreide evaluatie van onze aanpak, die een verbetering van 29,2% in personageconsistentie en 36,2% in stijlgelijkheid laat zien in vergelijking met eerdere methoden, terwijl een hoge ruimtelijke nauwkeurigheid wordt getoond. Onze projectpagina is beschikbaar op https://yj7082126.github.io/dreamingcomics/.
English
Current story visualization methods tend to position subjects solely by text and face challenges in maintaining artistic consistency. To address these limitations, we introduce DreamingComics, a layout-aware story visualization framework. We build upon a pretrained video diffusion-transformer (DiT) model, leveraging its spatiotemporal priors to enhance identity and style consistency. For layout-based position control, we propose RegionalRoPE, a region-aware positional encoding scheme that re-indexes embeddings based on the target layout. Additionally, we introduce a masked condition loss to further constrain each subject's visual features to their designated region. To infer layouts from natural language scripts, we integrate an LLM-based layout generator trained to produce comic-style layouts, enabling flexible and controllable layout conditioning. We present a comprehensive evaluation of our approach, showing a 29.2% increase in character consistency and a 36.2% increase in style similarity compared to previous methods, while displaying high spatial accuracy. Our project page is available at https://yj7082126.github.io/dreamingcomics/