DiTaiListener: Geração Controlável de Vídeos de Ouvintes de Alta Fidelidade com Difusão
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion
April 5, 2025
Autores: Maksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani
cs.AI
Resumo
A geração de movimentos naturalistas e sutis de ouvintes para interações prolongadas continua sendo um problema em aberto. Os métodos existentes frequentemente dependem de códigos de movimento de baixa dimensão para a geração de comportamentos faciais, seguidos por renderização fotorrealista, limitando tanto a fidelidade visual quanto a riqueza expressiva. Para enfrentar esses desafios, introduzimos o DiTaiListener, impulsionado por um modelo de difusão de vídeo com condições multimodais. Nossa abordagem primeiro gera segmentos curtos de respostas do ouvinte condicionados à fala e aos movimentos faciais do falante com o DiTaiListener-Gen. Em seguida, refina os quadros de transição via DiTaiListener-Edit para uma transição suave. Especificamente, o DiTaiListener-Gen adapta um Transformer de Difusão (DiT) para a tarefa de geração de retratos de cabeça do ouvinte, introduzindo um Adaptador Multimodal Temporal Causal (CTM-Adapter) para processar os sinais auditivos e visuais do falante. O CTM-Adapter integra a entrada do falante de maneira causal no processo de geração de vídeo para garantir respostas do ouvinte temporalmente coerentes. Para a geração de vídeos de longa duração, introduzimos o DiTaiListener-Edit, um modelo de difusão de vídeo para refinamento de transição. O modelo funde segmentos de vídeo em vídeos suaves e contínuos, garantindo consistência temporal nas expressões faciais e na qualidade da imagem ao unir segmentos curtos de vídeo produzidos pelo DiTaiListener-Gen. Quantitativamente, o DiTaiListener alcança o desempenho de ponta em conjuntos de dados de referência tanto no espaço de fotorrealismo (+73,8% no FID no RealTalk) quanto no espaço de representação de movimento (+6,1% na métrica FD no VICO). Estudos com usuários confirmam o desempenho superior do DiTaiListener, com o modelo sendo a clara preferência em termos de feedback, diversidade e suavidade, superando os concorrentes por uma margem significativa.
English
Generating naturalistic and nuanced listener motions for extended
interactions remains an open problem. Existing methods often rely on
low-dimensional motion codes for facial behavior generation followed by
photorealistic rendering, limiting both visual fidelity and expressive
richness. To address these challenges, we introduce DiTaiListener, powered by a
video diffusion model with multimodal conditions. Our approach first generates
short segments of listener responses conditioned on the speaker's speech and
facial motions with DiTaiListener-Gen. It then refines the transitional frames
via DiTaiListener-Edit for a seamless transition. Specifically,
DiTaiListener-Gen adapts a Diffusion Transformer (DiT) for the task of listener
head portrait generation by introducing a Causal Temporal Multimodal Adapter
(CTM-Adapter) to process speakers' auditory and visual cues. CTM-Adapter
integrates speakers' input in a causal manner into the video generation process
to ensure temporally coherent listener responses. For long-form video
generation, we introduce DiTaiListener-Edit, a transition refinement
video-to-video diffusion model. The model fuses video segments into smooth and
continuous videos, ensuring temporal consistency in facial expressions and
image quality when merging short video segments produced by DiTaiListener-Gen.
Quantitatively, DiTaiListener achieves the state-of-the-art performance on
benchmark datasets in both photorealism (+73.8% in FID on RealTalk) and motion
representation (+6.1% in FD metric on VICO) spaces. User studies confirm the
superior performance of DiTaiListener, with the model being the clear
preference in terms of feedback, diversity, and smoothness, outperforming
competitors by a significant margin.Summary
AI-Generated Summary