ChatPaper.aiChatPaper

DreamingComics: Un Pipeline de Visualización de Historias mediante Generación Personalizada de Sujeto y Diseño usando Modelos de Video

DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

December 1, 2025
Autores: Patrick Kwon, Chen Chen
cs.AI

Resumen

Los métodos actuales de visualización de historias tienden a posicionar a los sujetos únicamente mediante texto y enfrentan desafíos para mantener la coherencia artística. Para abordar estas limitaciones, presentamos DreamingComics, un marco de visualización de historias consciente del diseño de página. Partimos de un modelo preentrenado de transformador de difusión de video (DiT), aprovechando sus antecedentes espacio-temporales para mejorar la coherencia de identidad y estilo. Para el control de posición basado en diseño, proponemos RegionalRoPE, un esquema de codificación posicional consciente de la región que reindexa los embeddings según el diseño objetivo. Adicionalmente, introducimos una pérdida por condición enmascarada para restringir aún más las características visuales de cada sujeto a su región designada. Para inferir diseños a partir de guiones en lenguaje natural, integramos un generador de diseños basado en LLM entrenado para producir diseños de estilo cómic, permitiendo un condicionamiento de diseño flexible y controlable. Presentamos una evaluación exhaustiva de nuestro enfoque, mostrando un aumento del 29.2% en la coherencia de personajes y del 36.2% en la similitud de estilo en comparación con métodos anteriores, mientras se exhibe una alta precisión espacial. Nuestra página del proyecto está disponible en https://yj7082126.github.io/dreamingcomics/
English
Current story visualization methods tend to position subjects solely by text and face challenges in maintaining artistic consistency. To address these limitations, we introduce DreamingComics, a layout-aware story visualization framework. We build upon a pretrained video diffusion-transformer (DiT) model, leveraging its spatiotemporal priors to enhance identity and style consistency. For layout-based position control, we propose RegionalRoPE, a region-aware positional encoding scheme that re-indexes embeddings based on the target layout. Additionally, we introduce a masked condition loss to further constrain each subject's visual features to their designated region. To infer layouts from natural language scripts, we integrate an LLM-based layout generator trained to produce comic-style layouts, enabling flexible and controllable layout conditioning. We present a comprehensive evaluation of our approach, showing a 29.2% increase in character consistency and a 36.2% increase in style similarity compared to previous methods, while displaying high spatial accuracy. Our project page is available at https://yj7082126.github.io/dreamingcomics/
PDF10December 3, 2025