DiTaiListener : Génération contrôlée de vidéos haute fidélité d'auditeurs avec des modèles de diffusion
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion
April 5, 2025
Auteurs: Maksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani
cs.AI
Résumé
La génération de mouvements d'écoute naturalistes et nuancés pour des interactions prolongées reste un problème non résolu. Les méthodes existantes reposent souvent sur des codes de mouvement de faible dimension pour la génération de comportements faciaux, suivis d'un rendu photoréaliste, ce qui limite à la fois la fidélité visuelle et la richesse expressive. Pour relever ces défis, nous présentons DiTaiListener, alimenté par un modèle de diffusion vidéo avec des conditions multimodales. Notre approche génère d'abord de courts segments de réponses d'écoute conditionnées par la parole et les mouvements faciaux de l'interlocuteur avec DiTaiListener-Gen. Elle affine ensuite les images de transition via DiTaiListener-Edit pour une transition fluide. Plus précisément, DiTaiListener-Gen adapte un Transformer de Diffusion (DiT) pour la génération de portraits de tête d'écouteur en introduisant un Adaptateur Multimodal Temporel Causal (CTM-Adapter) pour traiter les indices auditifs et visuels de l'interlocuteur. CTM-Adapter intègre les entrées de l'interlocuteur de manière causale dans le processus de génération vidéo pour garantir des réponses d'écoute temporellement cohérentes. Pour la génération de vidéos longues, nous introduisons DiTaiListener-Edit, un modèle de diffusion vidéo-à-vidéo de raffinement de transition. Ce modèle fusionne les segments vidéo en des vidéos fluides et continues, assurant la cohérence temporelle des expressions faciales et la qualité d'image lors de la fusion des courts segments vidéo produits par DiTaiListener-Gen. Quantitativement, DiTaiListener atteint des performances de pointe sur des ensembles de données de référence à la fois en termes de photoréalisme (+73,8 % en FID sur RealTalk) et de représentation des mouvements (+6,1 % en métrique FD sur VICO). Les études utilisateurs confirment la performance supérieure de DiTaiListener, le modèle étant clairement préféré en termes de retour, de diversité et de fluidité, surpassant les concurrents de manière significative.
English
Generating naturalistic and nuanced listener motions for extended
interactions remains an open problem. Existing methods often rely on
low-dimensional motion codes for facial behavior generation followed by
photorealistic rendering, limiting both visual fidelity and expressive
richness. To address these challenges, we introduce DiTaiListener, powered by a
video diffusion model with multimodal conditions. Our approach first generates
short segments of listener responses conditioned on the speaker's speech and
facial motions with DiTaiListener-Gen. It then refines the transitional frames
via DiTaiListener-Edit for a seamless transition. Specifically,
DiTaiListener-Gen adapts a Diffusion Transformer (DiT) for the task of listener
head portrait generation by introducing a Causal Temporal Multimodal Adapter
(CTM-Adapter) to process speakers' auditory and visual cues. CTM-Adapter
integrates speakers' input in a causal manner into the video generation process
to ensure temporally coherent listener responses. For long-form video
generation, we introduce DiTaiListener-Edit, a transition refinement
video-to-video diffusion model. The model fuses video segments into smooth and
continuous videos, ensuring temporal consistency in facial expressions and
image quality when merging short video segments produced by DiTaiListener-Gen.
Quantitatively, DiTaiListener achieves the state-of-the-art performance on
benchmark datasets in both photorealism (+73.8% in FID on RealTalk) and motion
representation (+6.1% in FD metric on VICO) spaces. User studies confirm the
superior performance of DiTaiListener, with the model being the clear
preference in terms of feedback, diversity, and smoothness, outperforming
competitors by a significant margin.Summary
AI-Generated Summary