SkyReels-Audio: Retratos Parlantes en Video Condicionados por Audio Omni mediante Transformadores de Difusión
SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers
June 1, 2025
Autores: Zhengcong Fei, Hao Jiang, Di Qiu, Baoxuan Gu, Youqiang Zhang, Jiahua Wang, Jialin Bai, Debang Li, Mingyuan Fan, Guibin Chen, Yahui Zhou
cs.AI
Resumen
La generación y edición de retratos parlantes condicionados por audio guiados por entradas multimodales, incluyendo texto, imágenes y videos, sigue siendo un área poco explorada. En este artículo, presentamos SkyReels-Audio, un marco unificado para sintetizar videos de retratos parlantes de alta fidelidad y coherencia temporal. Basado en transformadores de difusión de video preentrenados, nuestro marco soporta generación y edición de longitud infinita, al tiempo que permite un condicionamiento diverso y controlable a través de entradas multimodales. Empleamos una estrategia híbrida de aprendizaje curricular para alinear progresivamente el audio con el movimiento facial, permitiendo un control multimodal de grano fino sobre secuencias de video largas. Para mejorar la coherencia facial local, introducimos una pérdida de máscara facial y un mecanismo de guía libre de clasificador guiado por audio. Un enfoque de eliminación de ruido por ventana deslizante fusiona además representaciones latentes a través de segmentos temporales, asegurando fidelidad visual y consistencia temporal en duraciones extendidas y diversas identidades. Más importante aún, construimos una canalización de datos dedicada para curar tripletas de alta calidad que consisten en audio, video y descripciones textuales sincronizadas. Evaluaciones exhaustivas de referencia muestran que SkyReels-Audio logra un rendimiento superior en precisión de sincronización labial, consistencia de identidad y dinámicas faciales realistas, particularmente bajo condiciones complejas y desafiantes.
English
The generation and editing of audio-conditioned talking portraits guided by
multimodal inputs, including text, images, and videos, remains under explored.
In this paper, we present SkyReels-Audio, a unified framework for synthesizing
high-fidelity and temporally coherent talking portrait videos. Built upon
pretrained video diffusion transformers, our framework supports infinite-length
generation and editing, while enabling diverse and controllable conditioning
through multimodal inputs. We employ a hybrid curriculum learning strategy to
progressively align audio with facial motion, enabling fine-grained multimodal
control over long video sequences. To enhance local facial coherence, we
introduce a facial mask loss and an audio-guided classifier-free guidance
mechanism. A sliding-window denoising approach further fuses latent
representations across temporal segments, ensuring visual fidelity and temporal
consistency across extended durations and diverse identities. More importantly,
we construct a dedicated data pipeline for curating high-quality triplets
consisting of synchronized audio, video, and textual descriptions.
Comprehensive benchmark evaluations show that SkyReels-Audio achieves superior
performance in lip-sync accuracy, identity consistency, and realistic facial
dynamics, particularly under complex and challenging conditions.