ChatPaper.aiChatPaper

TalkingMachines : Vidéo en temps réel de style FaceTime pilotée par l'audio via des modèles de diffusion autorégressifs

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

June 3, 2025
Auteurs: Chetwin Low, Weimin Wang
cs.AI

Résumé

Dans cet article, nous présentons TalkingMachines -- un cadre efficace qui transforme des modèles pré-entraînés de génération vidéo en animateurs de personnages pilotés par l'audio en temps réel. TalkingMachines permet des expériences conversationnelles naturelles en intégrant un modèle de langage audio de grande envergure (LLM) avec notre modèle de base de génération vidéo. Nos principales contributions incluent : (1) Nous adaptons un DiT (Diffusion Transformer) pré-entraîné de pointe pour la génération d'images en vidéo en un modèle de génération d'avatars piloté par l'audio, comportant 18 milliards de paramètres ; (2) Nous permettons un streaming vidéo infini sans accumulation d'erreurs grâce à une distillation de connaissances asymétrique d'un modèle enseignant bidirectionnel vers un modèle étudiant causal et autorégressif parcimonieux ; (3) Nous concevons un pipeline d'inférence à haut débit et faible latence, intégrant plusieurs optimisations techniques clés telles que : (a) la dissociation du DiT et du décodeur VAE sur des dispositifs distincts, (b) un chevauchement efficace de la communication et du calcul inter-dispositifs en utilisant des flux CUDA, (c) l'élimination des recalculs redondants pour maximiser le débit de génération d'images. Veuillez consulter les vidéos de démonstration ici - https://aaxwaz.github.io/TalkingMachines/
English
In this paper, we present TalkingMachines -- an efficient framework that transforms pretrained video generation models into real-time, audio-driven character animators. TalkingMachines enables natural conversational experiences by integrating an audio large language model (LLM) with our video generation foundation model. Our primary contributions include: (1) We adapt a pretrained SOTA image-to-video DiT into an audio-driven avatar generation model of 18 billion parameters; (2) We enable infinite video streaming without error accumulation through asymmetric knowledge distillation from a bidirectional teacher model into a sparse causal, autoregressive student model; (3) We design a high-throughput, low-latency inference pipeline incorporating several key engineering optimizations such as: (a) disaggregation of the DiT and VAE decoder across separate devices, (b) efficient overlap of inter-device communication and computation using CUDA streams, (c) elimination of redundant recomputations to maximize frame-generation throughput. Please see demo videos here - https://aaxwaz.github.io/TalkingMachines/
PDF72June 5, 2025