드리밍코믹스: 비디오 모델을 활용한 주제 및 레이아웃 맞춤형 생성 기반 스토리 시각화 파이프라인
DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models
December 1, 2025
저자: Patrick Kwon, Chen Chen
cs.AI
초록
기존 스토리 시각화 방법론은 주체의 위치를 텍스트에만 의존하여 설정하는 경향이 있어 예술적 일관성 유지에 어려움을 겪습니다. 이러한 한계를 해결하기 위해 본 논문에서는 레이아웃 인식 스토리 시각화 프레임워크인 DreamingComics를 제안합니다. 우리는 사전 학습된 비디오 디퓨전-트랜스포머(DiT) 모델을 기반으로 하여, 해당 모델의 시공간적 사전 지식을 활용해 개체 식별성과 스타일 일관성을 향상시켰습니다. 레이아웃 기반 위치 제어를 위해 RegionalRoPE를 제안하는데, 이는 대상 레이아웃에 따라 임베딩을 재구성하는 영역 인식 위치 인코딩 기법입니다. 또한 마스크 조건 손실을 도입하여 각 주체의 시각적 특징이 지정된 영역에 제약을 받도록 추가적으로 강화했습니다. 자연어 스크립트로부터 레이아웃을 추론하기 위해 만화 스타일 레이아웃 생성을 학습한 LLM 기반 레이아웃 생성기를 통합하여 유연하고 제어 가능한 레이아웃 조건 설정을 가능하게 했습니다. 종합적 평가를 통해 기존 방법 대비 캐릭터 일관성은 29.2%, 스타일 유사도는 36.2% 향상되었음을 보여주면서 높은 공간 정확도를 입증했습니다. 프로젝트 페이지는 https://yj7082126.github.io/dreamingcomics/에서 확인할 수 있습니다.
English
Current story visualization methods tend to position subjects solely by text and face challenges in maintaining artistic consistency. To address these limitations, we introduce DreamingComics, a layout-aware story visualization framework. We build upon a pretrained video diffusion-transformer (DiT) model, leveraging its spatiotemporal priors to enhance identity and style consistency. For layout-based position control, we propose RegionalRoPE, a region-aware positional encoding scheme that re-indexes embeddings based on the target layout. Additionally, we introduce a masked condition loss to further constrain each subject's visual features to their designated region. To infer layouts from natural language scripts, we integrate an LLM-based layout generator trained to produce comic-style layouts, enabling flexible and controllable layout conditioning. We present a comprehensive evaluation of our approach, showing a 29.2% increase in character consistency and a 36.2% increase in style similarity compared to previous methods, while displaying high spatial accuracy. Our project page is available at https://yj7082126.github.io/dreamingcomics/