DiffSensei: Verknüpfung von Multi-Modalen LLMs und Diffusionsmodellen für die individuelle Manga-Generierung
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
December 10, 2024
Autoren: Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong
cs.AI
Zusammenfassung
Die Visualisierung von Geschichten, die Aufgabe, visuelle Erzählungen aus textuellen Beschreibungen zu erstellen, hat Fortschritte mit Modellen zur Text-zu-Bild-Generierung gesehen. Allerdings fehlt es diesen Modellen oft an effektiver Kontrolle über das Erscheinungsbild und die Interaktionen von Charakteren, insbesondere in Szenen mit mehreren Charakteren. Um diese Einschränkungen zu adressieren, schlagen wir eine neue Aufgabe vor: die individuelle Manga-Generierung und stellen DiffSensei vor, ein innovatives Framework, das speziell für die Generierung von Manga mit dynamischer Mehrcharakterkontrolle entwickelt wurde. DiffSensei integriert einen auf Diffusion basierenden Bildgenerator mit einem multimodalen großen Sprachmodell (MLLM), das als textkompatibler Identitätsadapter fungiert. Unser Ansatz verwendet maskierte Kreuz-Aufmerksamkeit, um Charaktermerkmale nahtlos zu integrieren, was eine präzise Layout-Kontrolle ohne direkten Pixeltransfer ermöglicht. Darüber hinaus passt der auf MLLM basierende Adapter Charaktermerkmale an, um sie mit panel-spezifischen Texthinweisen in Einklang zu bringen, was flexible Anpassungen in Charakterausdrücken, Posen und Aktionen ermöglicht. Wir stellen auch MangaZero vor, einen groß angelegten Datensatz, der speziell für diese Aufgabe entwickelt wurde und 43.264 Manga-Seiten und 427.147 annotierte Panels enthält, um die Visualisierung verschiedener Charakterinteraktionen und -bewegungen über aufeinanderfolgende Frames zu unterstützen. Umfangreiche Experimente zeigen, dass DiffSensei bestehende Modelle übertrifft und einen signifikanten Fortschritt in der Manga-Generierung markiert, indem individuelle Charakteranpassungen ermöglicht werden, die an den Text angepasst sind. Die Projektseite befindet sich unter https://jianzongwu.github.io/projects/diffsensei/.
English
Story visualization, the task of creating visual narratives from textual
descriptions, has seen progress with text-to-image generation models. However,
these models often lack effective control over character appearances and
interactions, particularly in multi-character scenes. To address these
limitations, we propose a new task: customized manga generation and
introduce DiffSensei, an innovative framework specifically designed
for generating manga with dynamic multi-character control. DiffSensei
integrates a diffusion-based image generator with a multimodal large language
model (MLLM) that acts as a text-compatible identity adapter. Our approach
employs masked cross-attention to seamlessly incorporate character features,
enabling precise layout control without direct pixel transfer. Additionally,
the MLLM-based adapter adjusts character features to align with panel-specific
text cues, allowing flexible adjustments in character expressions, poses, and
actions. We also introduce MangaZero, a large-scale dataset tailored
to this task, containing 43,264 manga pages and 427,147 annotated panels,
supporting the visualization of varied character interactions and movements
across sequential frames. Extensive experiments demonstrate that DiffSensei
outperforms existing models, marking a significant advancement in manga
generation by enabling text-adaptable character customization. The project page
is https://jianzongwu.github.io/projects/diffsensei/.Summary
AI-Generated Summary