Ein Satz, ein Drama: Personalisierte Kurzform-Drama-Generierung durch Multi-Agenten-Systeme

Zusammenfassung

Bestehende Ansätze zur Produktion digitaler Kurzdramen basieren typischerweise auf einmalig von LLMs generierten Drehbüchern und lose gekoppelten Pipelines, die drei wesentliche Anforderungen der Kurzdramen-Generierung nicht erfüllen: (1) Erzähltempo, was zu schwachen Spannungsbögen, unzureichender Steigerung und unattraktiven Enden führt; (2) räumliche Konsistenz, die zu driftenden Szenenlayouts und inkonsistenten Figurenpositionen über einzelne Clips hinweg führt; und (3) produktionsreife Qualitätskontrolle, die umfangreiche manuelle Überprüfungen und Korrekturen in den Drehbuch- und visuellen Phasen erfordert. Wir präsentieren *One Sentence, One Drama*, ein hierarchisches Multi-Agenten-Framework, das die Ein-Satz-Idee eines Nutzers durch strukturierte Zwischenmodule und iterative Verfeinerung in ein vollständig produziertes Kurzdrama verwandelt. Unser Ansatz basiert auf drei Schlüsselkomponenten: (1) einem auf Multi-Agenten-Debatten basierenden Geschichtengenerierungsmodul, das das Erzähltempo und die narrative Kohärenz von Kurzdramen sicherstellt; (2) einem 3D-gestützten Erstbildgenerierungsmechanismus, der eine gemeinsame räumliche Referenz für konsistente Figurenpositionierung und Szenenlayouts über Clips hinweg etabliert; und (3) mehrstufigen Prüfschleifen, die eine umfassende Fehlererkennung und gezielte Überarbeitung in den Drehbuch-, visuellen und Videogenerierungsphasen durchführen. Wir führen zudem szenenbezogenes BGM-Matching und Szenenübergangsplanung ein, um das Eintauchen des Publikums zu verbessern. Zur systematischen Evaluierung dieser Aufgabe stellen wir *Short-Drama-Bench* vor, einen Benchmark, der standardmäßige Videoqualitätsmetriken um kurzdramaspezifische Kriterien erweitert. Experimentelle Ergebnisse zeigen, dass unsere Methode bestehende Pipelines in narrativer Qualität, konsistenzübergreifender Konsistenz und Gesamtschauerlebnis deutlich übertrifft.

English

Existing approaches for digital short-drama production typically rely on one-shot LLM generated scripts and loosely coupled pipelines, which fail to satisfy three key requirements of short-drama generation: (1) narrative pacing, resulting in weak hooks, insufficient escalation, and unattractive endings; (2) spatial consistency, leading to drifting scene layouts and inconsistent character positions across clips; and (3) production-level quality control, requiring extensive manual review and correction across script and visual stages. We present One Sentence, One Drama, a hierarchical multi-agent framework that transforms a user's single-sentence idea into a fully produced short drama through structured intermediate modules and iterative refinement. Our approach is built upon three key components: (1) a multi-agent debate-based story generation module that enforces short-drama pacing and narrative coherence; (2) a 3D-grounded first-frame generation mechanism that establishes a shared spatial reference for consistent character positioning and scene layout across clips; and (3) multi-stage reviewer loops that perform comprehensive error detection and targeted revision across script, visual, and video generation stages. We also introduce scene-level BGM matching and scene transition planning to improve the audience's immersive experience. To systematically evaluate this task, we introduce Short-Drama-Bench, a benchmark that extends standard video quality metrics with short-drama-specific criteria. Experimental results demonstrate that our method significantly outperforms existing pipelines in narrative quality, cross-clip consistency, and overall viewing experience.