ChatPaper.aiChatPaper

TalkingMachines: Vídeo em Estilo FaceTime Dirigido por Áudio em Tempo Real via Modelos Autoregressivos de Difusão

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

June 3, 2025
Autores: Chetwin Low, Weimin Wang
cs.AI

Resumo

Neste artigo, apresentamos o TalkingMachines -- um framework eficiente que transforma modelos pré-treinados de geração de vídeo em animadores de personagens em tempo real e impulsionados por áudio. O TalkingMachines possibilita experiências conversacionais naturais ao integrar um modelo de linguagem de grande escala (LLM) de áudio com nosso modelo base de geração de vídeo. Nossas principais contribuições incluem: (1) Adaptamos um DiT (Diffusion Transformer) de última geração pré-treinado para geração de imagens em vídeo em um modelo de geração de avatares impulsionado por áudio com 18 bilhões de parâmetros; (2) Habilitamos o streaming infinito de vídeo sem acumulação de erros por meio de destilação assimétrica de conhecimento de um modelo professor bidirecional para um modelo estudante causal esparso e autorregressivo; (3) Projetamos um pipeline de inferência de alta taxa de transferência e baixa latência, incorporando várias otimizações de engenharia essenciais, como: (a) desagregação do DiT e do decodificador VAE em dispositivos separados, (b) sobreposição eficiente de comunicação e computação entre dispositivos usando CUDA streams, (c) eliminação de recomputações redundantes para maximizar a taxa de geração de quadros. Confira os vídeos de demonstração aqui - https://aaxwaz.github.io/TalkingMachines/
English
In this paper, we present TalkingMachines -- an efficient framework that transforms pretrained video generation models into real-time, audio-driven character animators. TalkingMachines enables natural conversational experiences by integrating an audio large language model (LLM) with our video generation foundation model. Our primary contributions include: (1) We adapt a pretrained SOTA image-to-video DiT into an audio-driven avatar generation model of 18 billion parameters; (2) We enable infinite video streaming without error accumulation through asymmetric knowledge distillation from a bidirectional teacher model into a sparse causal, autoregressive student model; (3) We design a high-throughput, low-latency inference pipeline incorporating several key engineering optimizations such as: (a) disaggregation of the DiT and VAE decoder across separate devices, (b) efficient overlap of inter-device communication and computation using CUDA streams, (c) elimination of redundant recomputations to maximize frame-generation throughput. Please see demo videos here - https://aaxwaz.github.io/TalkingMachines/
PDF92June 5, 2025