ChatPaper.aiChatPaper

MoCha: Auf dem Weg zur filmreifen Synthese sprechender Charaktere

MoCha: Towards Movie-Grade Talking Character Synthesis

March 30, 2025
Autoren: Cong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen
cs.AI

Zusammenfassung

Jüngste Fortschritte in der Videogenerierung haben beeindruckende Bewegungsrealismus erreicht, doch sie vernachlässigen oft die charaktergetriebene Erzählung, eine entscheidende Aufgabe für die automatisierte Film- und Animationserstellung. Wir stellen Talking Characters vor, eine realistischere Aufgabe, die darauf abzielt, Animationen von sprechenden Charakteren direkt aus Sprache und Text zu generieren. Im Gegensatz zu Talking Head zielt Talking Characters darauf ab, das vollständige Porträt eines oder mehrerer Charaktere über den Gesichtsbereich hinaus zu erzeugen. In diesem Artikel präsentieren wir MoCha, das erste System seiner Art, das sprechende Charaktere generiert. Um eine präzise Synchronisation zwischen Video und Sprache zu gewährleisten, schlagen wir einen Sprach-Video-Fenster-Attentionsmechanismus vor, der Sprach- und Video-Tokens effektiv ausrichtet. Um den Mangel an groß angelegten, sprachbeschrifteten Videodatensätzen zu beheben, führen wir eine gemeinsame Trainingsstrategie ein, die sowohl sprachbeschriftete als auch textbeschriftete Videodaten nutzt und die Generalisierung über diverse Charakteraktionen deutlich verbessert. Wir entwerfen auch strukturierte Prompt-Vorlagen mit Charakter-Tags, die erstmals Mehrfachcharakter-Konversationen mit turn-basiertem Dialog ermöglichen – wodurch KI-generierte Charaktere in kontextbewusste Gespräche mit filmischer Kohärenz eintreten können. Umfangreiche qualitative und quantitative Bewertungen, einschließlich menschlicher Präferenzstudien und Benchmark-Vergleiche, zeigen, dass MoCha einen neuen Standard für KI-generiertes filmisches Storytelling setzt und dabei überlegene Realismus, Ausdruckskraft, Steuerbarkeit und Generalisierung erreicht.
English
Recent advancements in video generation have achieved impressive motion realism, yet they often overlook character-driven storytelling, a crucial task for automated film, animation generation. We introduce Talking Characters, a more realistic task to generate talking character animations directly from speech and text. Unlike talking head, Talking Characters aims at generating the full portrait of one or more characters beyond the facial region. In this paper, we propose MoCha, the first of its kind to generate talking characters. To ensure precise synchronization between video and speech, we propose a speech-video window attention mechanism that effectively aligns speech and video tokens. To address the scarcity of large-scale speech-labeled video datasets, we introduce a joint training strategy that leverages both speech-labeled and text-labeled video data, significantly improving generalization across diverse character actions. We also design structured prompt templates with character tags, enabling, for the first time, multi-character conversation with turn-based dialogue-allowing AI-generated characters to engage in context-aware conversations with cinematic coherence. Extensive qualitative and quantitative evaluations, including human preference studies and benchmark comparisons, demonstrate that MoCha sets a new standard for AI-generated cinematic storytelling, achieving superior realism, expressiveness, controllability and generalization.
PDF13519April 1, 2025