TalkingMachines: Echtzeit-Audio-gesteuerte FaceTime-ähnliche Videos mittels autoregressiver Diffusionsmodelle

papers.abstract

In diesem Artikel präsentieren wir TalkingMachines – ein effizientes Framework, das vortrainierte Video-Generierungsmodelle in Echtzeit-Audio-gesteuerte Charakteranimatoren transformiert. TalkingMachines ermöglicht natürliche Konversationserlebnisse durch die Integration eines Audio-Large-Language-Models (LLM) mit unserem Video-Generierungs-Grundlagenmodell. Unsere primären Beiträge umfassen: (1) Wir adaptieren ein vortrainiertes SOTA Image-to-Video DiT in ein Audio-gesteuertes Avatar-Generierungsmodell mit 18 Milliarden Parametern; (2) Wir ermöglichen unendliches Video-Streaming ohne Fehlerakkumulation durch asymmetrische Wissensdestillation von einem bidirektionalen Lehrermodell in ein spärliches kausales, autoregressives Schülermodell; (3) Wir entwerfen eine hochdurchsatzfähige, niedrig-latenz Inferenz-Pipeline, die mehrere wichtige technische Optimierungen beinhaltet, wie z.B.: (a) die Trennung des DiT und VAE-Decoders auf separate Geräte, (b) die effiziente Überlappung von inter-Geräte-Kommunikation und Berechnung mittels CUDA-Streams, (c) die Beseitigung redundanter Neuberechnungen zur Maximierung der Frame-Generierungsrate. Demo-Videos finden Sie hier - https://aaxwaz.github.io/TalkingMachines/

English

In this paper, we present TalkingMachines -- an efficient framework that transforms pretrained video generation models into real-time, audio-driven character animators. TalkingMachines enables natural conversational experiences by integrating an audio large language model (LLM) with our video generation foundation model. Our primary contributions include: (1) We adapt a pretrained SOTA image-to-video DiT into an audio-driven avatar generation model of 18 billion parameters; (2) We enable infinite video streaming without error accumulation through asymmetric knowledge distillation from a bidirectional teacher model into a sparse causal, autoregressive student model; (3) We design a high-throughput, low-latency inference pipeline incorporating several key engineering optimizations such as: (a) disaggregation of the DiT and VAE decoder across separate devices, (b) efficient overlap of inter-device communication and computation using CUDA streams, (c) elimination of redundant recomputations to maximize frame-generation throughput. Please see demo videos here - https://aaxwaz.github.io/TalkingMachines/

TalkingMachines: Echtzeit-Audio-gesteuerte FaceTime-ähnliche Videos mittels autoregressiver Diffusionsmodelle

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

papers.abstract

Support