MoCha: Op Weg Naar Filmwaardige Synthese van Sprekende PersonagesMoCha: Towards Movie-Grade Talking Character Synthesis
Recente vooruitgang in videogeneratie heeft indrukwekkende bewegingsrealiteit bereikt, maar vaak wordt karaktergedreven verhalen vertellen over het hoofd gezien, een cruciale taak voor geautomatiseerde film- en animatiegeneratie. Wij introduceren Talking Characters, een realistischer taak om animaties van pratende karakters direct vanuit spraak en tekst te genereren. In tegenstelling tot talking head, streeft Talking Characters ernaar het volledige portret van een of meer karakters te genereren, verder dan alleen het gezichtsgebied. In dit artikel stellen we MoCha voor, de eerste in zijn soort om pratende karakters te genereren. Om een precieze synchronisatie tussen video en spraak te garanderen, introduceren we een spraak-video venster aandachtmechanisme dat spraak- en videotokens effectief uitlijnt. Om het gebrek aan grootschalige spraakgelabelde videodatasets aan te pakken, introduceren we een gezamenlijke trainingsstrategie die zowel spraakgelabelde als tekstgelabelde videodata benut, wat de generalisatie over diverse karakteracties aanzienlijk verbetert. We ontwerpen ook gestructureerde promptsjablonen met karaktertags, waardoor voor het eerst multi-karakter gesprekken met beurtgebaseerde dialogen mogelijk worden – waardoor AI-gegenereerde karakters contextbewuste gesprekken kunnen voeren met cinematische samenhang. Uitgebreide kwalitatieve en kwantitatieve evaluaties, inclusief menselijke voorkeursstudies en benchmarkvergelijkingen, tonen aan dat MoCha een nieuwe standaard zet voor AI-gegenereerd cinematisch verhalen vertellen, met superieure realiteit, expressiviteit, bestuurbaarheid en generalisatie.