TalkingMachines: Real-time audio-gestuurde FaceTime-stijl video via autoregressieve diffusiemodellen
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models
June 3, 2025
Auteurs: Chetwin Low, Weimin Wang
cs.AI
Samenvatting
In dit artikel presenteren we TalkingMachines -- een efficiënt raamwerk dat voorgetrainde videogeneratiemodellen omzet in realtime, audio-gestuurde karakteranimators. TalkingMachines maakt natuurlijke gesprekservaringen mogelijk door een audio large language model (LLM) te integreren met ons videogeneratie-basismodel. Onze belangrijkste bijdragen omvatten: (1) We passen een voorgetraind SOTA image-to-video DiT-model aan tot een audio-gestuurd avatar-generatiemodel van 18 miljard parameters; (2) We maken oneindige videostreaming mogelijk zonder foutaccumulatie door asymmetrische kennisdistillatie van een bidirectioneel leraarmodel naar een spaars causaal, autoregressief studentmodel; (3) We ontwerpen een inferentiepijplijn met hoge doorvoer en lage latentie, waarin verschillende belangrijke technische optimalisaties zijn opgenomen, zoals: (a) het scheiden van de DiT en VAE-decoder over aparte apparaten, (b) efficiënte overlapping van inter-apparaatcommunicatie en -berekening met behulp van CUDA-streams, (c) het elimineren van overbodige herberekeningen om de doorvoer van framegeneratie te maximaliseren. Bekijk de demovideo's hier - https://aaxwaz.github.io/TalkingMachines/
English
In this paper, we present TalkingMachines -- an efficient framework that
transforms pretrained video generation models into real-time, audio-driven
character animators. TalkingMachines enables natural conversational experiences
by integrating an audio large language model (LLM) with our video generation
foundation model. Our primary contributions include: (1) We adapt a pretrained
SOTA image-to-video DiT into an audio-driven avatar generation model of 18
billion parameters; (2) We enable infinite video streaming without error
accumulation through asymmetric knowledge distillation from a bidirectional
teacher model into a sparse causal, autoregressive student model; (3) We design
a high-throughput, low-latency inference pipeline incorporating several key
engineering optimizations such as: (a) disaggregation of the DiT and VAE
decoder across separate devices, (b) efficient overlap of inter-device
communication and computation using CUDA streams, (c) elimination of redundant
recomputations to maximize frame-generation throughput. Please see demo videos
here - https://aaxwaz.github.io/TalkingMachines/