TalkingMachines: Видео в стиле FaceTime с управлением звуком в реальном времени с использованием авторегрессивных диффузионных моделей
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models
June 3, 2025
Авторы: Chetwin Low, Weimin Wang
cs.AI
Аннотация
В данной статье мы представляем TalkingMachines — эффективный фреймворк, который преобразует предобученные модели генерации видео в аниматоры персонажей, управляемые аудио в реальном времени. TalkingMachines обеспечивает естественные разговорные взаимодействия за счет интеграции крупной языковой модели (LLM) для обработки аудио с нашей базовой моделью генерации видео. Наши основные вклады включают: (1) Адаптацию предобученной SOTA модели DiT для преобразования изображений в видео в модель генерации аватаров, управляемую аудио, с 18 миллиардами параметров; (2) Обеспечение бесконечной потоковой передачи видео без накопления ошибок за счет асимметричного дистилляции знаний из двунаправленной модели-учителя в разреженную каузальную авторегрессионную модель-ученика; (3) Разработку высокопроизводительного конвейера вывода с низкой задержкой, включающего несколько ключевых инженерных оптимизаций, таких как: (a) разделение DiT и декодера VAE на разные устройства, (b) эффективное совмещение межсетевого взаимодействия и вычислений с использованием CUDA потоков, (c) устранение избыточных перевычислений для максимизации пропускной способности генерации кадров. Демонстрационные видео доступны по ссылке — https://aaxwaz.github.io/TalkingMachines/.
English
In this paper, we present TalkingMachines -- an efficient framework that
transforms pretrained video generation models into real-time, audio-driven
character animators. TalkingMachines enables natural conversational experiences
by integrating an audio large language model (LLM) with our video generation
foundation model. Our primary contributions include: (1) We adapt a pretrained
SOTA image-to-video DiT into an audio-driven avatar generation model of 18
billion parameters; (2) We enable infinite video streaming without error
accumulation through asymmetric knowledge distillation from a bidirectional
teacher model into a sparse causal, autoregressive student model; (3) We design
a high-throughput, low-latency inference pipeline incorporating several key
engineering optimizations such as: (a) disaggregation of the DiT and VAE
decoder across separate devices, (b) efficient overlap of inter-device
communication and computation using CUDA streams, (c) elimination of redundant
recomputations to maximize frame-generation throughput. Please see demo videos
here - https://aaxwaz.github.io/TalkingMachines/