DiTaiListener: Beheerbare Generatie van Hoogwaardige Luisteraar-Video's met Diffusie
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion
April 5, 2025
Auteurs: Maksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani
cs.AI
Samenvatting
Het genereren van naturalistische en genuanceerde luisteraarsbewegingen voor langdurige interacties blijft een open probleem. Bestaande methoden vertrouwen vaak op laagdimensionale bewegingscodes voor het genereren van gezichtsgedrag, gevolgd door fotorealistisch renderen, wat zowel de visuele kwaliteit als de expressieve rijkdom beperkt. Om deze uitdagingen aan te pakken, introduceren we DiTaiListener, aangedreven door een videodiffusiemodel met multimodale condities. Onze aanpak genereert eerst korte segmenten van luisteraarsreacties, geconditioneerd op de spraak en gezichtsbewegingen van de spreker met DiTaiListener-Gen. Vervolgens worden de overgangsframes verfijnd via DiTaiListener-Edit voor een naadloze overgang. Specifiek past DiTaiListener-Gen een Diffusion Transformer (DiT) aan voor de taak van het genereren van luisteraarsportretten door een Causal Temporal Multimodal Adapter (CTM-Adapter) te introduceren om auditieve en visuele signalen van de spreker te verwerken. CTM-Adapter integreert de input van de spreker op een causale manier in het videogeneratieproces om temporeel coherente luisteraarsreacties te garanderen. Voor het genereren van lange video's introduceren we DiTaiListener-Edit, een overgangsverfijningsmodel voor video-naar-video diffusie. Het model smelt videosegmenten samen tot vloeiende en continue video's, waardoor temporele consistentie in gezichtsuitdrukkingen en beeldkwaliteit wordt gewaarborgd bij het samenvoegen van korte videosegmenten die door DiTaiListener-Gen zijn geproduceerd. Kwantitatief behaalt DiTaiListener de state-of-the-art prestaties op benchmarkdatasets op het gebied van zowel fotorealisme (+73,8% in FID op RealTalk) als bewegingsrepresentatie (+6,1% in FD-metric op VICO). Gebruikersstudies bevestigen de superieure prestaties van DiTaiListener, waarbij het model de duidelijke voorkeur geniet in termen van feedback, diversiteit en vloeiendheid, en daarmee concurrenten met een aanzienlijke marge overtreft.
English
Generating naturalistic and nuanced listener motions for extended
interactions remains an open problem. Existing methods often rely on
low-dimensional motion codes for facial behavior generation followed by
photorealistic rendering, limiting both visual fidelity and expressive
richness. To address these challenges, we introduce DiTaiListener, powered by a
video diffusion model with multimodal conditions. Our approach first generates
short segments of listener responses conditioned on the speaker's speech and
facial motions with DiTaiListener-Gen. It then refines the transitional frames
via DiTaiListener-Edit for a seamless transition. Specifically,
DiTaiListener-Gen adapts a Diffusion Transformer (DiT) for the task of listener
head portrait generation by introducing a Causal Temporal Multimodal Adapter
(CTM-Adapter) to process speakers' auditory and visual cues. CTM-Adapter
integrates speakers' input in a causal manner into the video generation process
to ensure temporally coherent listener responses. For long-form video
generation, we introduce DiTaiListener-Edit, a transition refinement
video-to-video diffusion model. The model fuses video segments into smooth and
continuous videos, ensuring temporal consistency in facial expressions and
image quality when merging short video segments produced by DiTaiListener-Gen.
Quantitatively, DiTaiListener achieves the state-of-the-art performance on
benchmark datasets in both photorealism (+73.8% in FID on RealTalk) and motion
representation (+6.1% in FD metric on VICO) spaces. User studies confirm the
superior performance of DiTaiListener, with the model being the clear
preference in terms of feedback, diversity, and smoothness, outperforming
competitors by a significant margin.