DiffSensei: 다중 모달 LLM과 확산 모델을 연결하여 맞춤형 만화 생성
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
December 10, 2024
저자: Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong
cs.AI
초록
텍스트 설명으로부터 시각적 서술물을 만드는 이야기 시각화는 텍스트에서 이미지로 변환하는 모델들과 함께 발전해왔습니다. 그러나 이러한 모델들은 종종 캐릭터의 외모와 상호작용에 효과적인 제어를 부족하게 합니다, 특히 다중 캐릭터 장면에서. 이러한 제한을 해결하기 위해 우리는 새로운 작업을 제안합니다: 맞춤형 만화 생성과 다중 캐릭터 제어에 중점을 둔 혁신적인 프레임워크인 DiffSensei를 소개합니다. DiffSensei는 확산 기반 이미지 생성기와 텍스트 호환성 어댑터 역할을 하는 다중 모달 대형 언어 모델(MLLM)을 통합합니다. 저희 방법론은 마스크된 교차 어텐션을 활용하여 캐릭터 특징을 신속하게 통합함으로써 직접적인 픽셀 전송 없이도 정확한 레이아웃 제어를 가능케 합니다. 게다가 MLLM 기반 어댑터는 패널별 텍스트 힌트와 일치하도록 캐릭터 특징을 조정하여 캐릭터 표정, 자세, 행동에 유연한 조정을 가능하게 합니다. 또한 이 작업에 맞춤형 대규모 데이터셋인 MangaZero를 소개합니다. 이 데이터셋은 43,264개의 만화 페이지와 427,147개의 주석이 달린 패널을 포함하며, 순차적 프레임을 통해 다양한 캐릭터 상호작용과 움직임을 시각화할 수 있도록 지원합니다. 다양한 실험 결과는 DiffSensei가 기존 모델들을 능가함을 입증하며, 텍스트 호환성 캐릭터 맞춤화를 가능케 함으로써 만화 생성에서 중요한 발전을 이루었다는 것을 보여줍니다. 프로젝트 페이지는 https://jianzongwu.github.io/projects/diffsensei/ 에서 확인하실 수 있습니다.
English
Story visualization, the task of creating visual narratives from textual
descriptions, has seen progress with text-to-image generation models. However,
these models often lack effective control over character appearances and
interactions, particularly in multi-character scenes. To address these
limitations, we propose a new task: customized manga generation and
introduce DiffSensei, an innovative framework specifically designed
for generating manga with dynamic multi-character control. DiffSensei
integrates a diffusion-based image generator with a multimodal large language
model (MLLM) that acts as a text-compatible identity adapter. Our approach
employs masked cross-attention to seamlessly incorporate character features,
enabling precise layout control without direct pixel transfer. Additionally,
the MLLM-based adapter adjusts character features to align with panel-specific
text cues, allowing flexible adjustments in character expressions, poses, and
actions. We also introduce MangaZero, a large-scale dataset tailored
to this task, containing 43,264 manga pages and 427,147 annotated panels,
supporting the visualization of varied character interactions and movements
across sequential frames. Extensive experiments demonstrate that DiffSensei
outperforms existing models, marking a significant advancement in manga
generation by enabling text-adaptable character customization. The project page
is https://jianzongwu.github.io/projects/diffsensei/.Summary
AI-Generated Summary