TalkingMachines: Video en tiempo real estilo FaceTime impulsado por audio mediante modelos de difusión autorregresivos

Resumen

En este artículo, presentamos TalkingMachines: un marco eficiente que transforma modelos preentrenados de generación de video en animadores de personajes impulsados por audio en tiempo real. TalkingMachines permite experiencias conversacionales naturales al integrar un modelo de lenguaje grande (LLM) de audio con nuestro modelo base de generación de video. Nuestras principales contribuciones incluyen: (1) Adaptamos un modelo DiT de última generación (SOTA) de imagen a video en un modelo de generación de avatares impulsado por audio con 18 mil millones de parámetros; (2) Habilitamos la transmisión infinita de video sin acumulación de errores mediante la destilación asimétrica de conocimiento desde un modelo bidireccional maestro hacia un modelo estudiantil causal y autorregresivo disperso; (3) Diseñamos una canalización de inferencia de alto rendimiento y baja latencia que incorpora varias optimizaciones clave de ingeniería, tales como: (a) desagregación del DiT y el decodificador VAE en dispositivos separados, (b) superposición eficiente de la comunicación y el cálculo entre dispositivos utilizando CUDA streams, (c) eliminación de recomputaciones redundantes para maximizar el rendimiento en la generación de fotogramas. Consulte los videos de demostración aquí: https://aaxwaz.github.io/TalkingMachines/

English

In this paper, we present TalkingMachines -- an efficient framework that transforms pretrained video generation models into real-time, audio-driven character animators. TalkingMachines enables natural conversational experiences by integrating an audio large language model (LLM) with our video generation foundation model. Our primary contributions include: (1) We adapt a pretrained SOTA image-to-video DiT into an audio-driven avatar generation model of 18 billion parameters; (2) We enable infinite video streaming without error accumulation through asymmetric knowledge distillation from a bidirectional teacher model into a sparse causal, autoregressive student model; (3) We design a high-throughput, low-latency inference pipeline incorporating several key engineering optimizations such as: (a) disaggregation of the DiT and VAE decoder across separate devices, (b) efficient overlap of inter-device communication and computation using CUDA streams, (c) elimination of redundant recomputations to maximize frame-generation throughput. Please see demo videos here - https://aaxwaz.github.io/TalkingMachines/

TalkingMachines: Video en tiempo real estilo FaceTime impulsado por audio mediante modelos de difusión autorregresivos

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

Resumen

Support