ChatPaper.aiChatPaper

TalkingMachines: Video in Stile FaceTime Guidato dall'Audio in Tempo Reale tramite Modelli Autoregressivi di Diffusione

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

June 3, 2025
Autori: Chetwin Low, Weimin Wang
cs.AI

Abstract

In questo articolo presentiamo TalkingMachines -- un framework efficiente che trasforma modelli pre-addestrati di generazione video in animatori di personaggi guidati da audio in tempo reale. TalkingMachines abilita esperienze conversazionali naturali integrando un modello linguistico di grandi dimensioni (LLM) audio con il nostro modello di base per la generazione video. I nostri principali contributi includono: (1) Adattiamo un modello DiT (Diffusion Transformer) pre-addestrato all'avanguardia da immagine-a-video in un modello di generazione di avatar guidato da audio con 18 miliardi di parametri; (2) Abilitiamo lo streaming video infinito senza accumulo di errori attraverso la distillazione asimmetrica della conoscenza da un modello insegnante bidirezionale a un modello studente causale sparso e autoregressivo; (3) Progettiamo una pipeline di inferenza ad alta produttività e bassa latenza che incorpora diverse ottimizzazioni ingegneristiche chiave come: (a) la disaggregazione del DiT e del decodificatore VAE su dispositivi separati, (b) l'efficiente sovrapposizione della comunicazione e del calcolo inter-dispositivo utilizzando CUDA streams, (c) l'eliminazione delle ricomputazioni ridondanti per massimizzare la produttività nella generazione dei frame. Si prega di vedere i video dimostrativi qui - https://aaxwaz.github.io/TalkingMachines/
English
In this paper, we present TalkingMachines -- an efficient framework that transforms pretrained video generation models into real-time, audio-driven character animators. TalkingMachines enables natural conversational experiences by integrating an audio large language model (LLM) with our video generation foundation model. Our primary contributions include: (1) We adapt a pretrained SOTA image-to-video DiT into an audio-driven avatar generation model of 18 billion parameters; (2) We enable infinite video streaming without error accumulation through asymmetric knowledge distillation from a bidirectional teacher model into a sparse causal, autoregressive student model; (3) We design a high-throughput, low-latency inference pipeline incorporating several key engineering optimizations such as: (a) disaggregation of the DiT and VAE decoder across separate devices, (b) efficient overlap of inter-device communication and computation using CUDA streams, (c) elimination of redundant recomputations to maximize frame-generation throughput. Please see demo videos here - https://aaxwaz.github.io/TalkingMachines/
PDF194June 5, 2025