TalkingMachines: Video en tiempo real estilo FaceTime impulsado por audio mediante modelos de difusión autorregresivos
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models
June 3, 2025
Autores: Chetwin Low, Weimin Wang
cs.AI
Resumen
En este artículo, presentamos TalkingMachines: un marco eficiente que transforma modelos preentrenados de generación de video en animadores de personajes impulsados por audio en tiempo real. TalkingMachines permite experiencias conversacionales naturales al integrar un modelo de lenguaje grande (LLM) de audio con nuestro modelo base de generación de video. Nuestras principales contribuciones incluyen: (1) Adaptamos un modelo DiT de última generación (SOTA) de imagen a video en un modelo de generación de avatares impulsado por audio con 18 mil millones de parámetros; (2) Habilitamos la transmisión infinita de video sin acumulación de errores mediante la destilación asimétrica de conocimiento desde un modelo bidireccional maestro hacia un modelo estudiantil causal y autorregresivo disperso; (3) Diseñamos una canalización de inferencia de alto rendimiento y baja latencia que incorpora varias optimizaciones clave de ingeniería, tales como: (a) desagregación del DiT y el decodificador VAE en dispositivos separados, (b) superposición eficiente de la comunicación y el cálculo entre dispositivos utilizando CUDA streams, (c) eliminación de recomputaciones redundantes para maximizar el rendimiento en la generación de fotogramas. Consulte los videos de demostración aquí: https://aaxwaz.github.io/TalkingMachines/
English
In this paper, we present TalkingMachines -- an efficient framework that
transforms pretrained video generation models into real-time, audio-driven
character animators. TalkingMachines enables natural conversational experiences
by integrating an audio large language model (LLM) with our video generation
foundation model. Our primary contributions include: (1) We adapt a pretrained
SOTA image-to-video DiT into an audio-driven avatar generation model of 18
billion parameters; (2) We enable infinite video streaming without error
accumulation through asymmetric knowledge distillation from a bidirectional
teacher model into a sparse causal, autoregressive student model; (3) We design
a high-throughput, low-latency inference pipeline incorporating several key
engineering optimizations such as: (a) disaggregation of the DiT and VAE
decoder across separate devices, (b) efficient overlap of inter-device
communication and computation using CUDA streams, (c) elimination of redundant
recomputations to maximize frame-generation throughput. Please see demo videos
here - https://aaxwaz.github.io/TalkingMachines/