MoCha : Vers une synthèse de personnages parlants de qualité cinématographique
MoCha: Towards Movie-Grade Talking Character Synthesis
March 30, 2025
Auteurs: Cong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen
cs.AI
Résumé
Les récents progrès dans la génération vidéo ont permis d'atteindre un réalisme impressionnant dans les mouvements, mais ils négligent souvent la narration centrée sur les personnages, une tâche cruciale pour la production automatisée de films et d'animations. Nous présentons Talking Characters, une tâche plus réaliste visant à générer des animations de personnages parlants directement à partir de la parole et du texte. Contrairement aux "talking heads", Talking Characters vise à générer le portrait complet d'un ou plusieurs personnages, au-delà de la région faciale. Dans cet article, nous proposons MoCha, le premier système de ce genre à générer des personnages parlants. Pour garantir une synchronisation précise entre la vidéo et la parole, nous proposons un mécanisme d'attention par fenêtre parole-vidéo qui aligne efficacement les tokens de parole et de vidéo. Pour pallier le manque de jeux de données vidéo à grande échelle annotés en parole, nous introduisons une stratégie d'entraînement conjoint qui exploite à la fois des données vidéo annotées en parole et en texte, améliorant ainsi significativement la généralisation à travers diverses actions de personnages. Nous concevons également des modèles de prompts structurés avec des étiquettes de personnages, permettant, pour la première fois, des conversations multi-personnages avec des dialogues tour à tour, ce qui permet aux personnages générés par l'IA de s'engager dans des conversations contextuelles avec une cohérence cinématographique. Des évaluations qualitatives et quantitatives approfondies, incluant des études de préférence humaine et des comparaisons de benchmarks, démontrent que MoCha établit un nouveau standard pour la narration cinématographique générée par l'IA, atteignant un réalisme, une expressivité, une contrôlabilité et une généralisation supérieurs.
English
Recent advancements in video generation have achieved impressive motion
realism, yet they often overlook character-driven storytelling, a crucial task
for automated film, animation generation. We introduce Talking Characters, a
more realistic task to generate talking character animations directly from
speech and text. Unlike talking head, Talking Characters aims at generating the
full portrait of one or more characters beyond the facial region. In this
paper, we propose MoCha, the first of its kind to generate talking characters.
To ensure precise synchronization between video and speech, we propose a
speech-video window attention mechanism that effectively aligns speech and
video tokens. To address the scarcity of large-scale speech-labeled video
datasets, we introduce a joint training strategy that leverages both
speech-labeled and text-labeled video data, significantly improving
generalization across diverse character actions. We also design structured
prompt templates with character tags, enabling, for the first time,
multi-character conversation with turn-based dialogue-allowing AI-generated
characters to engage in context-aware conversations with cinematic coherence.
Extensive qualitative and quantitative evaluations, including human preference
studies and benchmark comparisons, demonstrate that MoCha sets a new standard
for AI-generated cinematic storytelling, achieving superior realism,
expressiveness, controllability and generalization.Summary
AI-Generated Summary