DreamingComics: Una Pipeline di Visualizzazione Narrativa tramite Generazione Personalizzata di Soggetti e Layout utilizzando Modelli Video
DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models
December 1, 2025
Autori: Patrick Kwon, Chen Chen
cs.AI
Abstract
I metodi attuali di visualizzazione narrativa tendono a posizionare i soggetti unicamente tramite testo e incontrano difficoltà nel mantenere la coerenza artistica. Per affrontare queste limitazioni, introduciamo DreamingComics, un framework di visualizzazione narrativa consapevole del layout. Partiamo da un modello preaddestrato di video diffusion-transformer (DiT), sfruttando i suoi priori spazio-temporali per migliorare la coerenza dell'identità e dello stile. Per il controllo posizionale basato sul layout, proponiamo RegionalRoPE, uno schema di codifica posizionale consapevole della regione che re-indicizza gli embedding in base al layout target. Inoltre, introduciamo una masked condition loss per vincolare ulteriormente le caratteristiche visive di ogni soggetto alla rispettiva regione designata. Per dedurre i layout da script in linguaggio naturale, integriamo un generatore di layout basato su LLM, addestrato per produrre layout in stile fumetto, consentendo un condizionamento del layout flessibile e controllabile. Presentiamo una valutazione completa del nostro approccio, mostrando un aumento del 29,2% nella coerenza dei personaggi e del 36,2% nella similarità stilistica rispetto ai metodi precedenti, dimostrando al contempo un'elevata accuratezza spaziale. La nostra pagina progetto è disponibile all'indirizzo https://yj7082126.github.io/dreamingcomics/
English
Current story visualization methods tend to position subjects solely by text and face challenges in maintaining artistic consistency. To address these limitations, we introduce DreamingComics, a layout-aware story visualization framework. We build upon a pretrained video diffusion-transformer (DiT) model, leveraging its spatiotemporal priors to enhance identity and style consistency. For layout-based position control, we propose RegionalRoPE, a region-aware positional encoding scheme that re-indexes embeddings based on the target layout. Additionally, we introduce a masked condition loss to further constrain each subject's visual features to their designated region. To infer layouts from natural language scripts, we integrate an LLM-based layout generator trained to produce comic-style layouts, enabling flexible and controllable layout conditioning. We present a comprehensive evaluation of our approach, showing a 29.2% increase in character consistency and a 36.2% increase in style similarity compared to previous methods, while displaying high spatial accuracy. Our project page is available at https://yj7082126.github.io/dreamingcomics/