MoCha: Op Weg Naar Filmwaardige Synthese van Sprekende Personages
MoCha: Towards Movie-Grade Talking Character Synthesis
March 30, 2025
Auteurs: Cong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen
cs.AI
Samenvatting
Recente vooruitgang in videogeneratie heeft indrukwekkende bewegingsrealiteit bereikt, maar vaak wordt karaktergedreven verhalen vertellen over het hoofd gezien, een cruciale taak voor geautomatiseerde film- en animatiegeneratie. Wij introduceren Talking Characters, een realistischer taak om animaties van pratende karakters direct vanuit spraak en tekst te genereren. In tegenstelling tot talking head, streeft Talking Characters ernaar het volledige portret van een of meer karakters te genereren, verder dan alleen het gezichtsgebied. In dit artikel stellen we MoCha voor, de eerste in zijn soort om pratende karakters te genereren. Om een precieze synchronisatie tussen video en spraak te garanderen, introduceren we een spraak-video venster aandachtmechanisme dat spraak- en videotokens effectief uitlijnt. Om het gebrek aan grootschalige spraakgelabelde videodatasets aan te pakken, introduceren we een gezamenlijke trainingsstrategie die zowel spraakgelabelde als tekstgelabelde videodata benut, wat de generalisatie over diverse karakteracties aanzienlijk verbetert. We ontwerpen ook gestructureerde promptsjablonen met karaktertags, waardoor voor het eerst multi-karakter gesprekken met beurtgebaseerde dialogen mogelijk worden – waardoor AI-gegenereerde karakters contextbewuste gesprekken kunnen voeren met cinematische samenhang. Uitgebreide kwalitatieve en kwantitatieve evaluaties, inclusief menselijke voorkeursstudies en benchmarkvergelijkingen, tonen aan dat MoCha een nieuwe standaard zet voor AI-gegenereerd cinematisch verhalen vertellen, met superieure realiteit, expressiviteit, bestuurbaarheid en generalisatie.
English
Recent advancements in video generation have achieved impressive motion
realism, yet they often overlook character-driven storytelling, a crucial task
for automated film, animation generation. We introduce Talking Characters, a
more realistic task to generate talking character animations directly from
speech and text. Unlike talking head, Talking Characters aims at generating the
full portrait of one or more characters beyond the facial region. In this
paper, we propose MoCha, the first of its kind to generate talking characters.
To ensure precise synchronization between video and speech, we propose a
speech-video window attention mechanism that effectively aligns speech and
video tokens. To address the scarcity of large-scale speech-labeled video
datasets, we introduce a joint training strategy that leverages both
speech-labeled and text-labeled video data, significantly improving
generalization across diverse character actions. We also design structured
prompt templates with character tags, enabling, for the first time,
multi-character conversation with turn-based dialogue-allowing AI-generated
characters to engage in context-aware conversations with cinematic coherence.
Extensive qualitative and quantitative evaluations, including human preference
studies and benchmark comparisons, demonstrate that MoCha sets a new standard
for AI-generated cinematic storytelling, achieving superior realism,
expressiveness, controllability and generalization.Summary
AI-Generated Summary