TalkingMachines: Echtzeit-Audio-gesteuerte FaceTime-ähnliche Videos mittels autoregressiver Diffusionsmodelle
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models
June 3, 2025
Autoren: Chetwin Low, Weimin Wang
cs.AI
Zusammenfassung
In diesem Artikel präsentieren wir TalkingMachines – ein effizientes Framework, das vortrainierte Video-Generierungsmodelle in Echtzeit-Audio-gesteuerte Charakteranimatoren transformiert. TalkingMachines ermöglicht natürliche Konversationserlebnisse durch die Integration eines Audio-Large-Language-Models (LLM) mit unserem Video-Generierungs-Grundlagenmodell. Unsere primären Beiträge umfassen: (1) Wir adaptieren ein vortrainiertes SOTA Image-to-Video DiT in ein Audio-gesteuertes Avatar-Generierungsmodell mit 18 Milliarden Parametern; (2) Wir ermöglichen unendliches Video-Streaming ohne Fehlerakkumulation durch asymmetrische Wissensdestillation von einem bidirektionalen Lehrermodell in ein spärliches kausales, autoregressives Schülermodell; (3) Wir entwerfen eine hochdurchsatzfähige, niedrig-latenz Inferenz-Pipeline, die mehrere wichtige technische Optimierungen beinhaltet, wie z.B.: (a) die Trennung des DiT und VAE-Decoders auf separate Geräte, (b) die effiziente Überlappung von inter-Geräte-Kommunikation und Berechnung mittels CUDA-Streams, (c) die Beseitigung redundanter Neuberechnungen zur Maximierung der Frame-Generierungsrate. Demo-Videos finden Sie hier - https://aaxwaz.github.io/TalkingMachines/
English
In this paper, we present TalkingMachines -- an efficient framework that
transforms pretrained video generation models into real-time, audio-driven
character animators. TalkingMachines enables natural conversational experiences
by integrating an audio large language model (LLM) with our video generation
foundation model. Our primary contributions include: (1) We adapt a pretrained
SOTA image-to-video DiT into an audio-driven avatar generation model of 18
billion parameters; (2) We enable infinite video streaming without error
accumulation through asymmetric knowledge distillation from a bidirectional
teacher model into a sparse causal, autoregressive student model; (3) We design
a high-throughput, low-latency inference pipeline incorporating several key
engineering optimizations such as: (a) disaggregation of the DiT and VAE
decoder across separate devices, (b) efficient overlap of inter-device
communication and computation using CUDA streams, (c) elimination of redundant
recomputations to maximize frame-generation throughput. Please see demo videos
here - https://aaxwaz.github.io/TalkingMachines/