ChatPaper.aiChatPaper

MoCha: Hacia la síntesis de personajes parlantes de calidad cinematográfica

MoCha: Towards Movie-Grade Talking Character Synthesis

March 30, 2025
Autores: Cong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen
cs.AI

Resumen

Los recientes avances en la generación de videos han logrado un realismo de movimiento impresionante, pero a menudo pasan por alto la narrativa centrada en personajes, una tarea crucial para la automatización de películas y la generación de animaciones. Presentamos Talking Characters, una tarea más realista que genera animaciones de personajes hablantes directamente a partir de voz y texto. A diferencia de los talking heads, Talking Characters tiene como objetivo generar el retrato completo de uno o más personajes, más allá de la región facial. En este artículo, proponemos MoCha, el primero de su tipo en generar personajes hablantes. Para garantizar una sincronización precisa entre el video y el habla, proponemos un mecanismo de atención de ventana de habla-video que alinea eficazmente los tokens de habla y video. Para abordar la escasez de conjuntos de datos de video etiquetados con habla a gran escala, introducimos una estrategia de entrenamiento conjunto que aprovecha tanto los datos de video etiquetados con habla como con texto, mejorando significativamente la generalización en diversas acciones de personajes. También diseñamos plantillas de prompts estructuradas con etiquetas de personajes, permitiendo, por primera vez, conversaciones multi-personaje con diálogos por turnos, lo que posibilita que los personajes generados por IA participen en conversaciones conscientes del contexto con coherencia cinematográfica. Evaluaciones cualitativas y cuantitativas exhaustivas, incluyendo estudios de preferencia humana y comparaciones con benchmarks, demuestran que MoCha establece un nuevo estándar para la narrativa cinematográfica generada por IA, logrando un realismo, expresividad, controlabilidad y generalización superiores.
English
Recent advancements in video generation have achieved impressive motion realism, yet they often overlook character-driven storytelling, a crucial task for automated film, animation generation. We introduce Talking Characters, a more realistic task to generate talking character animations directly from speech and text. Unlike talking head, Talking Characters aims at generating the full portrait of one or more characters beyond the facial region. In this paper, we propose MoCha, the first of its kind to generate talking characters. To ensure precise synchronization between video and speech, we propose a speech-video window attention mechanism that effectively aligns speech and video tokens. To address the scarcity of large-scale speech-labeled video datasets, we introduce a joint training strategy that leverages both speech-labeled and text-labeled video data, significantly improving generalization across diverse character actions. We also design structured prompt templates with character tags, enabling, for the first time, multi-character conversation with turn-based dialogue-allowing AI-generated characters to engage in context-aware conversations with cinematic coherence. Extensive qualitative and quantitative evaluations, including human preference studies and benchmark comparisons, demonstrate that MoCha sets a new standard for AI-generated cinematic storytelling, achieving superior realism, expressiveness, controllability and generalization.

Summary

AI-Generated Summary

PDF13111April 1, 2025