TalkingMachines: Video in Stile FaceTime Guidato dall'Audio in Tempo Reale tramite Modelli Autoregressivi di Diffusione
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models
June 3, 2025
Autori: Chetwin Low, Weimin Wang
cs.AI
Abstract
In questo articolo presentiamo TalkingMachines -- un framework efficiente che trasforma modelli pre-addestrati di generazione video in animatori di personaggi guidati da audio in tempo reale. TalkingMachines abilita esperienze conversazionali naturali integrando un modello linguistico di grandi dimensioni (LLM) audio con il nostro modello di base per la generazione video. I nostri principali contributi includono: (1) Adattiamo un modello DiT (Diffusion Transformer) pre-addestrato all'avanguardia da immagine-a-video in un modello di generazione di avatar guidato da audio con 18 miliardi di parametri; (2) Abilitiamo lo streaming video infinito senza accumulo di errori attraverso la distillazione asimmetrica della conoscenza da un modello insegnante bidirezionale a un modello studente causale sparso e autoregressivo; (3) Progettiamo una pipeline di inferenza ad alta produttività e bassa latenza che incorpora diverse ottimizzazioni ingegneristiche chiave come: (a) la disaggregazione del DiT e del decodificatore VAE su dispositivi separati, (b) l'efficiente sovrapposizione della comunicazione e del calcolo inter-dispositivo utilizzando CUDA streams, (c) l'eliminazione delle ricomputazioni ridondanti per massimizzare la produttività nella generazione dei frame. Si prega di vedere i video dimostrativi qui - https://aaxwaz.github.io/TalkingMachines/
English
In this paper, we present TalkingMachines -- an efficient framework that
transforms pretrained video generation models into real-time, audio-driven
character animators. TalkingMachines enables natural conversational experiences
by integrating an audio large language model (LLM) with our video generation
foundation model. Our primary contributions include: (1) We adapt a pretrained
SOTA image-to-video DiT into an audio-driven avatar generation model of 18
billion parameters; (2) We enable infinite video streaming without error
accumulation through asymmetric knowledge distillation from a bidirectional
teacher model into a sparse causal, autoregressive student model; (3) We design
a high-throughput, low-latency inference pipeline incorporating several key
engineering optimizations such as: (a) disaggregation of the DiT and VAE
decoder across separate devices, (b) efficient overlap of inter-device
communication and computation using CUDA streams, (c) elimination of redundant
recomputations to maximize frame-generation throughput. Please see demo videos
here - https://aaxwaz.github.io/TalkingMachines/