DiffSensei: Verknüpfung von Multi-Modalen LLMs und Diffusionsmodellen für die individuelle Manga-Generierung

papers.abstract

Die Visualisierung von Geschichten, die Aufgabe, visuelle Erzählungen aus textuellen Beschreibungen zu erstellen, hat Fortschritte mit Modellen zur Text-zu-Bild-Generierung gesehen. Allerdings fehlt es diesen Modellen oft an effektiver Kontrolle über das Erscheinungsbild und die Interaktionen von Charakteren, insbesondere in Szenen mit mehreren Charakteren. Um diese Einschränkungen zu adressieren, schlagen wir eine neue Aufgabe vor: die individuelle Manga-Generierung und stellen DiffSensei vor, ein innovatives Framework, das speziell für die Generierung von Manga mit dynamischer Mehrcharakterkontrolle entwickelt wurde. DiffSensei integriert einen auf Diffusion basierenden Bildgenerator mit einem multimodalen großen Sprachmodell (MLLM), das als textkompatibler Identitätsadapter fungiert. Unser Ansatz verwendet maskierte Kreuz-Aufmerksamkeit, um Charaktermerkmale nahtlos zu integrieren, was eine präzise Layout-Kontrolle ohne direkten Pixeltransfer ermöglicht. Darüber hinaus passt der auf MLLM basierende Adapter Charaktermerkmale an, um sie mit panel-spezifischen Texthinweisen in Einklang zu bringen, was flexible Anpassungen in Charakterausdrücken, Posen und Aktionen ermöglicht. Wir stellen auch MangaZero vor, einen groß angelegten Datensatz, der speziell für diese Aufgabe entwickelt wurde und 43.264 Manga-Seiten und 427.147 annotierte Panels enthält, um die Visualisierung verschiedener Charakterinteraktionen und -bewegungen über aufeinanderfolgende Frames zu unterstützen. Umfangreiche Experimente zeigen, dass DiffSensei bestehende Modelle übertrifft und einen signifikanten Fortschritt in der Manga-Generierung markiert, indem individuelle Charakteranpassungen ermöglicht werden, die an den Text angepasst sind. Die Projektseite befindet sich unter https://jianzongwu.github.io/projects/diffsensei/.

English

Story visualization, the task of creating visual narratives from textual descriptions, has seen progress with text-to-image generation models. However, these models often lack effective control over character appearances and interactions, particularly in multi-character scenes. To address these limitations, we propose a new task: customized manga generation and introduce DiffSensei, an innovative framework specifically designed for generating manga with dynamic multi-character control. DiffSensei integrates a diffusion-based image generator with a multimodal large language model (MLLM) that acts as a text-compatible identity adapter. Our approach employs masked cross-attention to seamlessly incorporate character features, enabling precise layout control without direct pixel transfer. Additionally, the MLLM-based adapter adjusts character features to align with panel-specific text cues, allowing flexible adjustments in character expressions, poses, and actions. We also introduce MangaZero, a large-scale dataset tailored to this task, containing 43,264 manga pages and 427,147 annotated panels, supporting the visualization of varied character interactions and movements across sequential frames. Extensive experiments demonstrate that DiffSensei outperforms existing models, marking a significant advancement in manga generation by enabling text-adaptable character customization. The project page is https://jianzongwu.github.io/projects/diffsensei/.

DiffSensei: Verknüpfung von Multi-Modalen LLMs und Diffusionsmodellen für die individuelle Manga-Generierung

DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

papers.abstract

Support