DiTaiListener: Kontrollierbare Erzeugung hochwertiger Zuhörer-Videos mit Diffusionsmodellen
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion
April 5, 2025
Autoren: Maksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani
cs.AI
Zusammenfassung
Die Erzeugung natürlicher und nuancierter Zuhörerbewegungen für längere Interaktionen bleibt ein ungelöstes Problem. Bestehende Methoden stützen sich oft auf niedrigdimensionale Bewegungscodes für die Generierung von Gesichtsverhalten, gefolgt von fotorealistischem Rendering, was sowohl die visuelle Qualität als auch die Ausdrucksvielfalt einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir DiTaiListener vor, das von einem Video-Diffusionsmodell mit multimodalen Bedingungen angetrieben wird. Unser Ansatz generiert zunächst kurze Segmente von Zuhörerreaktionen, die auf der Sprache und den Gesichtsbewegungen des Sprechers basieren, mit DiTaiListener-Gen. Anschließend werden die Übergangsbilder über DiTaiListener-Edit für einen nahtlosen Übergang verfeinert. Konkret passt DiTaiListener-Gen einen Diffusion Transformer (DiT) für die Aufgabe der Generierung von Zuhörerkopfporträts an, indem ein Causal Temporal Multimodal Adapter (CTM-Adapter) eingeführt wird, um die auditiven und visuellen Hinweise des Sprechers zu verarbeiten. Der CTM-Adapter integriert die Eingaben des Sprechers in kausaler Weise in den Videogenerierungsprozess, um zeitlich kohärente Zuhörerreaktionen zu gewährleisten. Für die Generierung von Langformvideos führen wir DiTaiListener-Edit ein, ein Übergangsverfeinerungsmodell für Video-zu-Video-Diffusion. Dieses Modell fügt Videosegmente zu flüssigen und kontinuierlichen Videos zusammen und gewährleistet dabei die zeitliche Konsistenz von Gesichtsausdrücken und Bildqualität bei der Zusammenführung kurzer Videosegmente, die von DiTaiListener-Gen erzeugt wurden. Quantitativ erreicht DiTaiListener Spitzenleistungen auf Benchmark-Datensätzen sowohl im Bereich des Fotorealismus (+73,8 % im FID auf RealTalk) als auch in der Bewegungsdarstellung (+6,1 % im FD-Metrik auf VICO). Nutzerstudien bestätigen die überlegene Leistung von DiTaiListener, wobei das Modell in Bezug auf Feedback, Vielfalt und Flüssigkeit klar bevorzugt wird und die Konkurrenz deutlich übertrifft.
English
Generating naturalistic and nuanced listener motions for extended
interactions remains an open problem. Existing methods often rely on
low-dimensional motion codes for facial behavior generation followed by
photorealistic rendering, limiting both visual fidelity and expressive
richness. To address these challenges, we introduce DiTaiListener, powered by a
video diffusion model with multimodal conditions. Our approach first generates
short segments of listener responses conditioned on the speaker's speech and
facial motions with DiTaiListener-Gen. It then refines the transitional frames
via DiTaiListener-Edit for a seamless transition. Specifically,
DiTaiListener-Gen adapts a Diffusion Transformer (DiT) for the task of listener
head portrait generation by introducing a Causal Temporal Multimodal Adapter
(CTM-Adapter) to process speakers' auditory and visual cues. CTM-Adapter
integrates speakers' input in a causal manner into the video generation process
to ensure temporally coherent listener responses. For long-form video
generation, we introduce DiTaiListener-Edit, a transition refinement
video-to-video diffusion model. The model fuses video segments into smooth and
continuous videos, ensuring temporal consistency in facial expressions and
image quality when merging short video segments produced by DiTaiListener-Gen.
Quantitatively, DiTaiListener achieves the state-of-the-art performance on
benchmark datasets in both photorealism (+73.8% in FID on RealTalk) and motion
representation (+6.1% in FD metric on VICO) spaces. User studies confirm the
superior performance of DiTaiListener, with the model being the clear
preference in terms of feedback, diversity, and smoothness, outperforming
competitors by a significant margin.Summary
AI-Generated Summary