ChatPaper.aiChatPaper

DreamingComics : Un pipeline de visualisation narrative via une génération personnalisée du sujet et de la mise en page utilisant des modèles vidéo

DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

December 1, 2025
papers.authors: Patrick Kwon, Chen Chen
cs.AI

papers.abstract

Les méthodes actuelles de visualisation narrative ont tendance à positionner les sujets uniquement par le texte et rencontrent des difficultés à maintenir une cohérence artistique. Pour résoudre ces limitations, nous présentons DreamingComics, un cadre de visualisation narrative sensible à la mise en page. Nous nous appuyons sur un modèle de diffusion-transformer (DiT) vidéo préentraîné, en exploitant ses préconnaissances spatiotemporelles pour améliorer la cohérence d'identité et de style. Pour le contrôle positionnel basé sur la mise en page, nous proposons RegionalRoPE, un schéma d'encodage positionnel sensible aux régions qui réindexe les plongements en fonction de la mise en page cible. De plus, nous introduisons une perte conditionnelle masquée pour contraindre davantage les caractéristiques visuelles de chaque sujet à sa région désignée. Pour déduire les mises en page à partir de scripts en langage naturel, nous intégrons un générateur de mise en page basé sur un LLM, entraîné à produire des mises en page de style bande dessinée, permettant un conditionnement de mise en page flexible et contrôlable. Nous présentons une évaluation complète de notre approche, montrant une augmentation de 29,2 % de la cohérence des personnages et de 36,2 % de la similarité de style par rapport aux méthodes précédentes, tout en affichant une grande précision spatiale. Notre page projet est disponible à l'adresse https://yj7082126.github.io/dreamingcomics/
English
Current story visualization methods tend to position subjects solely by text and face challenges in maintaining artistic consistency. To address these limitations, we introduce DreamingComics, a layout-aware story visualization framework. We build upon a pretrained video diffusion-transformer (DiT) model, leveraging its spatiotemporal priors to enhance identity and style consistency. For layout-based position control, we propose RegionalRoPE, a region-aware positional encoding scheme that re-indexes embeddings based on the target layout. Additionally, we introduce a masked condition loss to further constrain each subject's visual features to their designated region. To infer layouts from natural language scripts, we integrate an LLM-based layout generator trained to produce comic-style layouts, enabling flexible and controllable layout conditioning. We present a comprehensive evaluation of our approach, showing a 29.2% increase in character consistency and a 36.2% increase in style similarity compared to previous methods, while displaying high spatial accuracy. Our project page is available at https://yj7082126.github.io/dreamingcomics/
PDF10December 3, 2025