MoCha: Rumo à Síntese de Personagens Falantes com Qualidade Cinematográfica
MoCha: Towards Movie-Grade Talking Character Synthesis
March 30, 2025
Autores: Cong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen
cs.AI
Resumo
Os recentes avanços na geração de vídeos têm alcançado um realismo impressionante em termos de movimento, mas frequentemente negligenciam a narrativa centrada em personagens, uma tarefa crucial para a automação de filmes e geração de animações. Apresentamos o Talking Characters, uma tarefa mais realista que gera animações de personagens falantes diretamente a partir de fala e texto. Diferente do talking head, o Talking Characters visa gerar o retrato completo de um ou mais personagens, indo além da região facial. Neste artigo, propomos o MoCha, o primeiro do seu tipo a gerar personagens falantes. Para garantir uma sincronização precisa entre vídeo e fala, propomos um mecanismo de atenção de janela fala-vídeo que alinha efetivamente os tokens de fala e vídeo. Para lidar com a escassez de grandes conjuntos de dados de vídeos rotulados com fala, introduzimos uma estratégia de treinamento conjunto que aproveita tanto dados de vídeo rotulados com fala quanto com texto, melhorando significativamente a generalização em diversas ações de personagens. Também projetamos modelos de prompt estruturados com tags de personagens, permitindo, pela primeira vez, conversas com múltiplos personagens com diálogos baseados em turnos — possibilitando que personagens gerados por IA se envolvam em conversas contextualmente conscientes com coerência cinematográfica. Avaliações qualitativas e quantitativas extensas, incluindo estudos de preferência humana e comparações com benchmarks, demonstram que o MoCha estabelece um novo padrão para a narrativa cinematográfica gerada por IA, alcançando realismo superior, expressividade, controlabilidade e generalização.
English
Recent advancements in video generation have achieved impressive motion
realism, yet they often overlook character-driven storytelling, a crucial task
for automated film, animation generation. We introduce Talking Characters, a
more realistic task to generate talking character animations directly from
speech and text. Unlike talking head, Talking Characters aims at generating the
full portrait of one or more characters beyond the facial region. In this
paper, we propose MoCha, the first of its kind to generate talking characters.
To ensure precise synchronization between video and speech, we propose a
speech-video window attention mechanism that effectively aligns speech and
video tokens. To address the scarcity of large-scale speech-labeled video
datasets, we introduce a joint training strategy that leverages both
speech-labeled and text-labeled video data, significantly improving
generalization across diverse character actions. We also design structured
prompt templates with character tags, enabling, for the first time,
multi-character conversation with turn-based dialogue-allowing AI-generated
characters to engage in context-aware conversations with cinematic coherence.
Extensive qualitative and quantitative evaluations, including human preference
studies and benchmark comparisons, demonstrate that MoCha sets a new standard
for AI-generated cinematic storytelling, achieving superior realism,
expressiveness, controllability and generalization.Summary
AI-Generated Summary