TalkingMachines: Видео в стиле FaceTime с управлением звуком в реальном времени с использованием авторегрессивных диффузионных моделей

Аннотация

В данной статье мы представляем TalkingMachines — эффективный фреймворк, который преобразует предобученные модели генерации видео в аниматоры персонажей, управляемые аудио в реальном времени. TalkingMachines обеспечивает естественные разговорные взаимодействия за счет интеграции крупной языковой модели (LLM) для обработки аудио с нашей базовой моделью генерации видео. Наши основные вклады включают: (1) Адаптацию предобученной SOTA модели DiT для преобразования изображений в видео в модель генерации аватаров, управляемую аудио, с 18 миллиардами параметров; (2) Обеспечение бесконечной потоковой передачи видео без накопления ошибок за счет асимметричного дистилляции знаний из двунаправленной модели-учителя в разреженную каузальную авторегрессионную модель-ученика; (3) Разработку высокопроизводительного конвейера вывода с низкой задержкой, включающего несколько ключевых инженерных оптимизаций, таких как: (a) разделение DiT и декодера VAE на разные устройства, (b) эффективное совмещение межсетевого взаимодействия и вычислений с использованием CUDA потоков, (c) устранение избыточных перевычислений для максимизации пропускной способности генерации кадров. Демонстрационные видео доступны по ссылке — https://aaxwaz.github.io/TalkingMachines/.

English

In this paper, we present TalkingMachines -- an efficient framework that transforms pretrained video generation models into real-time, audio-driven character animators. TalkingMachines enables natural conversational experiences by integrating an audio large language model (LLM) with our video generation foundation model. Our primary contributions include: (1) We adapt a pretrained SOTA image-to-video DiT into an audio-driven avatar generation model of 18 billion parameters; (2) We enable infinite video streaming without error accumulation through asymmetric knowledge distillation from a bidirectional teacher model into a sparse causal, autoregressive student model; (3) We design a high-throughput, low-latency inference pipeline incorporating several key engineering optimizations such as: (a) disaggregation of the DiT and VAE decoder across separate devices, (b) efficient overlap of inter-device communication and computation using CUDA streams, (c) elimination of redundant recomputations to maximize frame-generation throughput. Please see demo videos here - https://aaxwaz.github.io/TalkingMachines/

TalkingMachines: Видео в стиле FaceTime с управлением звуком в реальном времени с использованием авторегрессивных диффузионных моделей

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

Аннотация

Support