DiTaiListener: Generación de Videos de Oyentes de Alta Fidelidad Controlable con Difusión
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion
April 5, 2025
Autores: Maksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani
cs.AI
Resumen
Generar movimientos de escucha naturalistas y matizados para interacciones prolongadas sigue siendo un problema abierto. Los métodos existentes a menudo dependen de códigos de movimiento de baja dimensión para la generación de comportamiento facial, seguidos de renderizado fotorrealista, lo que limita tanto la fidelidad visual como la riqueza expresiva. Para abordar estos desafíos, presentamos DiTaiListener, impulsado por un modelo de difusión de video con condiciones multimodales. Nuestro enfoque primero genera segmentos cortos de respuestas del oyente condicionadas por el habla y los movimientos faciales del hablante con DiTaiListener-Gen. Luego, refina los fotogramas de transición mediante DiTaiListener-Edit para lograr una transición sin interrupciones. Específicamente, DiTaiListener-Gen adapta un Transformer de Difusión (DiT) para la tarea de generación de retratos de cabeza del oyente, introduciendo un Adaptador Multimodal Temporal Causal (CTM-Adapter) para procesar las señales auditivas y visuales del hablante. CTM-Adapter integra las entradas del hablante de manera causal en el proceso de generación de video para garantizar respuestas del oyente temporalmente coherentes. Para la generación de videos de larga duración, presentamos DiTaiListener-Edit, un modelo de difusión de video a video para el refinamiento de transiciones. Este modelo fusiona segmentos de video en videos suaves y continuos, asegurando la consistencia temporal en las expresiones faciales y la calidad de la imagen al unir segmentos cortos de video producidos por DiTaiListener-Gen. Cuantitativamente, DiTaiListener logra un rendimiento de vanguardia en conjuntos de datos de referencia tanto en espacios de fotorrealismo (+73.8% en FID en RealTalk) como en representación de movimiento (+6.1% en la métrica FD en VICO). Estudios de usuarios confirman el rendimiento superior de DiTaiListener, siendo el modelo la clara preferencia en términos de retroalimentación, diversidad y suavidad, superando a los competidores por un margen significativo.
English
Generating naturalistic and nuanced listener motions for extended
interactions remains an open problem. Existing methods often rely on
low-dimensional motion codes for facial behavior generation followed by
photorealistic rendering, limiting both visual fidelity and expressive
richness. To address these challenges, we introduce DiTaiListener, powered by a
video diffusion model with multimodal conditions. Our approach first generates
short segments of listener responses conditioned on the speaker's speech and
facial motions with DiTaiListener-Gen. It then refines the transitional frames
via DiTaiListener-Edit for a seamless transition. Specifically,
DiTaiListener-Gen adapts a Diffusion Transformer (DiT) for the task of listener
head portrait generation by introducing a Causal Temporal Multimodal Adapter
(CTM-Adapter) to process speakers' auditory and visual cues. CTM-Adapter
integrates speakers' input in a causal manner into the video generation process
to ensure temporally coherent listener responses. For long-form video
generation, we introduce DiTaiListener-Edit, a transition refinement
video-to-video diffusion model. The model fuses video segments into smooth and
continuous videos, ensuring temporal consistency in facial expressions and
image quality when merging short video segments produced by DiTaiListener-Gen.
Quantitatively, DiTaiListener achieves the state-of-the-art performance on
benchmark datasets in both photorealism (+73.8% in FID on RealTalk) and motion
representation (+6.1% in FD metric on VICO) spaces. User studies confirm the
superior performance of DiTaiListener, with the model being the clear
preference in terms of feedback, diversity, and smoothness, outperforming
competitors by a significant margin.Summary
AI-Generated Summary