DiTaiListener: Beheerbare Generatie van Hoogwaardige Luisteraar-Video's met Diffusie

Samenvatting

Het genereren van naturalistische en genuanceerde luisteraarsbewegingen voor langdurige interacties blijft een open probleem. Bestaande methoden vertrouwen vaak op laagdimensionale bewegingscodes voor het genereren van gezichtsgedrag, gevolgd door fotorealistisch renderen, wat zowel de visuele kwaliteit als de expressieve rijkdom beperkt. Om deze uitdagingen aan te pakken, introduceren we DiTaiListener, aangedreven door een videodiffusiemodel met multimodale condities. Onze aanpak genereert eerst korte segmenten van luisteraarsreacties, geconditioneerd op de spraak en gezichtsbewegingen van de spreker met DiTaiListener-Gen. Vervolgens worden de overgangsframes verfijnd via DiTaiListener-Edit voor een naadloze overgang. Specifiek past DiTaiListener-Gen een Diffusion Transformer (DiT) aan voor de taak van het genereren van luisteraarsportretten door een Causal Temporal Multimodal Adapter (CTM-Adapter) te introduceren om auditieve en visuele signalen van de spreker te verwerken. CTM-Adapter integreert de input van de spreker op een causale manier in het videogeneratieproces om temporeel coherente luisteraarsreacties te garanderen. Voor het genereren van lange video's introduceren we DiTaiListener-Edit, een overgangsverfijningsmodel voor video-naar-video diffusie. Het model smelt videosegmenten samen tot vloeiende en continue video's, waardoor temporele consistentie in gezichtsuitdrukkingen en beeldkwaliteit wordt gewaarborgd bij het samenvoegen van korte videosegmenten die door DiTaiListener-Gen zijn geproduceerd. Kwantitatief behaalt DiTaiListener de state-of-the-art prestaties op benchmarkdatasets op het gebied van zowel fotorealisme (+73,8% in FID op RealTalk) als bewegingsrepresentatie (+6,1% in FD-metric op VICO). Gebruikersstudies bevestigen de superieure prestaties van DiTaiListener, waarbij het model de duidelijke voorkeur geniet in termen van feedback, diversiteit en vloeiendheid, en daarmee concurrenten met een aanzienlijke marge overtreft.

English

Generating naturalistic and nuanced listener motions for extended interactions remains an open problem. Existing methods often rely on low-dimensional motion codes for facial behavior generation followed by photorealistic rendering, limiting both visual fidelity and expressive richness. To address these challenges, we introduce DiTaiListener, powered by a video diffusion model with multimodal conditions. Our approach first generates short segments of listener responses conditioned on the speaker's speech and facial motions with DiTaiListener-Gen. It then refines the transitional frames via DiTaiListener-Edit for a seamless transition. Specifically, DiTaiListener-Gen adapts a Diffusion Transformer (DiT) for the task of listener head portrait generation by introducing a Causal Temporal Multimodal Adapter (CTM-Adapter) to process speakers' auditory and visual cues. CTM-Adapter integrates speakers' input in a causal manner into the video generation process to ensure temporally coherent listener responses. For long-form video generation, we introduce DiTaiListener-Edit, a transition refinement video-to-video diffusion model. The model fuses video segments into smooth and continuous videos, ensuring temporal consistency in facial expressions and image quality when merging short video segments produced by DiTaiListener-Gen. Quantitatively, DiTaiListener achieves the state-of-the-art performance on benchmark datasets in both photorealism (+73.8% in FID on RealTalk) and motion representation (+6.1% in FD metric on VICO) spaces. User studies confirm the superior performance of DiTaiListener, with the model being the clear preference in terms of feedback, diversity, and smoothness, outperforming competitors by a significant margin.

DiTaiListener: Beheerbare Generatie van Hoogwaardige Luisteraar-Video's met Diffusie

DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Samenvatting

Support