Une phrase, un drame : Génération personnalisée de drames courts via des systèmes multi-agents

Résumé

Les approches existantes pour la production de mini-dramas numériques reposent généralement sur des scripts générés en une seule passe par un LLM et sur des pipelines faiblement couplés, ce qui ne parvient pas à satisfaire trois exigences clés de la génération de mini-dramas : (1) le rythme narratif, entraînant des accroches faibles, une montée en tension insuffisante et des fins peu attrayantes ; (2) la cohérence spatiale, conduisant à des dispositions de scène fluctuantes et à des positions de personnages incohérentes entre les clips ; et (3) un contrôle qualité au niveau production, nécessitant une révision et une correction manuelles approfondies aux étapes du script et du visuel. Nous présentons *One Sentence, One Drama*, un cadre hiérarchique multi-agent qui transforme l'idée d'une seule phrase d'un utilisateur en un mini-drama entièrement produit grâce à des modules intermédiaires structurés et un raffinement itératif. Notre approche repose sur trois composants clés : (1) un module de génération d'histoires par débat multi-agent qui impose un rythme de mini-drama et une cohérence narrative ; (2) un mécanisme de génération de première image ancrée en 3D qui établit un référentiel spatial partagé pour un positionnement cohérent des personnages et une disposition stable des scènes entre les clips ; et (3) des boucles de vérification multi-étapes qui effectuent une détection complète des erreurs et des révisions ciblées aux étapes du script, du visuel et de la génération vidéo. Nous introduisons également l'appariement de BGM au niveau scène et la planification des transitions de scène pour améliorer l'expérience immersive du public. Afin d'évaluer systématiquement cette tâche, nous présentons *Short-Drama-Bench*, un benchmark qui étend les métriques de qualité vidéo standard avec des critères spécifiques aux mini-dramas. Les résultats expérimentaux montrent que notre méthode surpasse significativement les pipelines existants en termes de qualité narrative, de cohérence interclips et d'expérience visuelle globale.

English

Existing approaches for digital short-drama production typically rely on one-shot LLM generated scripts and loosely coupled pipelines, which fail to satisfy three key requirements of short-drama generation: (1) narrative pacing, resulting in weak hooks, insufficient escalation, and unattractive endings; (2) spatial consistency, leading to drifting scene layouts and inconsistent character positions across clips; and (3) production-level quality control, requiring extensive manual review and correction across script and visual stages. We present One Sentence, One Drama, a hierarchical multi-agent framework that transforms a user's single-sentence idea into a fully produced short drama through structured intermediate modules and iterative refinement. Our approach is built upon three key components: (1) a multi-agent debate-based story generation module that enforces short-drama pacing and narrative coherence; (2) a 3D-grounded first-frame generation mechanism that establishes a shared spatial reference for consistent character positioning and scene layout across clips; and (3) multi-stage reviewer loops that perform comprehensive error detection and targeted revision across script, visual, and video generation stages. We also introduce scene-level BGM matching and scene transition planning to improve the audience's immersive experience. To systematically evaluate this task, we introduce Short-Drama-Bench, a benchmark that extends standard video quality metrics with short-drama-specific criteria. Experimental results demonstrate that our method significantly outperforms existing pipelines in narrative quality, cross-clip consistency, and overall viewing experience.