DiTaiListener: Управляемая генерация высококачественных видео слушателя с использованием диффузии
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion
April 5, 2025
Авторы: Maksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani
cs.AI
Аннотация
Создание естественных и детализированных движений слушателя в ходе продолжительных взаимодействий остается нерешенной задачей. Существующие методы часто полагаются на низкоразмерные коды движений для генерации мимики с последующим фотореалистичным рендерингом, что ограничивает как визуальное качество, так и выразительное богатство. Для решения этих проблем мы представляем DiTaiListener, основанный на модели видеодиффузии с мультимодальными условиями. Наш подход сначала генерирует короткие сегменты реакций слушателя, обусловленные речью и мимикой говорящего, с помощью DiTaiListener-Gen. Затем он уточняет переходные кадры через DiTaiListener-Edit для обеспечения плавного перехода. В частности, DiTaiListener-Gen адаптирует Diffusion Transformer (DiT) для задачи генерации портрета головы слушателя, вводя Causal Temporal Multimodal Adapter (CTM-Adapter) для обработки аудио- и визуальных сигналов говорящего. CTM-Adapter интегрирует входные данные говорящего в процесс генерации видео причинно-следственным образом, чтобы обеспечить временную согласованность реакций слушателя. Для генерации длинных видео мы представляем DiTaiListener-Edit, модель видеодиффузии для уточнения переходов. Эта модель объединяет видеосегменты в плавные и непрерывные видео, обеспечивая временную согласованность мимики и качества изображения при слиянии коротких видеосегментов, созданных DiTaiListener-Gen. Количественно DiTaiListener демонстрирует наилучшие результаты на эталонных наборах данных как в пространстве фотореализма (+73,8% по FID на RealTalk), так и в пространстве представления движений (+6,1% по метрике FD на VICO). Пользовательские исследования подтверждают превосходство DiTaiListener, причем модель явно предпочитается по отзывам, разнообразию и плавности, значительно опережая конкурентов.
English
Generating naturalistic and nuanced listener motions for extended
interactions remains an open problem. Existing methods often rely on
low-dimensional motion codes for facial behavior generation followed by
photorealistic rendering, limiting both visual fidelity and expressive
richness. To address these challenges, we introduce DiTaiListener, powered by a
video diffusion model with multimodal conditions. Our approach first generates
short segments of listener responses conditioned on the speaker's speech and
facial motions with DiTaiListener-Gen. It then refines the transitional frames
via DiTaiListener-Edit for a seamless transition. Specifically,
DiTaiListener-Gen adapts a Diffusion Transformer (DiT) for the task of listener
head portrait generation by introducing a Causal Temporal Multimodal Adapter
(CTM-Adapter) to process speakers' auditory and visual cues. CTM-Adapter
integrates speakers' input in a causal manner into the video generation process
to ensure temporally coherent listener responses. For long-form video
generation, we introduce DiTaiListener-Edit, a transition refinement
video-to-video diffusion model. The model fuses video segments into smooth and
continuous videos, ensuring temporal consistency in facial expressions and
image quality when merging short video segments produced by DiTaiListener-Gen.
Quantitatively, DiTaiListener achieves the state-of-the-art performance on
benchmark datasets in both photorealism (+73.8% in FID on RealTalk) and motion
representation (+6.1% in FD metric on VICO) spaces. User studies confirm the
superior performance of DiTaiListener, with the model being the clear
preference in terms of feedback, diversity, and smoothness, outperforming
competitors by a significant margin.Summary
AI-Generated Summary