DreamingComics: Um Pipeline de Visualização de Histórias via Geração Personalizada de Assunto e Layout usando Modelos de Vídeo

Resumo

Os métodos atuais de visualização de histórias tendem a posicionar os personagens apenas por texto e enfrentam desafios para manter a consistência artística. Para superar essas limitações, apresentamos o DreamingComics, uma estrutura de visualização de histórias com consciência de layout. Desenvolvemos nosso trabalho a partir de um modelo pré-treinado de difusão de vídeo com transformer (DiT), aproveitando seus prévios espaço-temporais para melhorar a consistência de identidade e estilo. Para o controle posicional baseado em layout, propomos o RegionalRoPE, um esquema de codificação posicional consciente de regiões que reindexa os embeddings com base no layout alvo. Adicionalmente, introduzimos uma função de perda com máscara condicional para restringir ainda mais as características visuais de cada personagem à sua região designada. Para inferir layouts a partir de scripts em linguagem natural, integramos um gerador de layouts baseado em LLM, treinado para produzir layouts no estilo de quadrinhos, permitindo um condicionamento de layout flexível e controlável. Apresentamos uma avaliação abrangente da nossa abordagem, mostrando um aumento de 29,2% na consistência de personagens e de 36,2% na similaridade de estilo em comparação com métodos anteriores, além de exibir alta precisão espacial. Nossa página do projeto está disponível em https://yj7082126.github.io/dreamingcomics/

English

Current story visualization methods tend to position subjects solely by text and face challenges in maintaining artistic consistency. To address these limitations, we introduce DreamingComics, a layout-aware story visualization framework. We build upon a pretrained video diffusion-transformer (DiT) model, leveraging its spatiotemporal priors to enhance identity and style consistency. For layout-based position control, we propose RegionalRoPE, a region-aware positional encoding scheme that re-indexes embeddings based on the target layout. Additionally, we introduce a masked condition loss to further constrain each subject's visual features to their designated region. To infer layouts from natural language scripts, we integrate an LLM-based layout generator trained to produce comic-style layouts, enabling flexible and controllable layout conditioning. We present a comprehensive evaluation of our approach, showing a 29.2% increase in character consistency and a 36.2% increase in style similarity compared to previous methods, while displaying high spatial accuracy. Our project page is available at https://yj7082126.github.io/dreamingcomics/

DreamingComics: Um Pipeline de Visualização de Histórias via Geração Personalizada de Assunto e Layout usando Modelos de Vídeo

DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

Resumo

Support