TalkingMachines: 자동회귀 확산 모델을 통한 실시간 오디오 기반 FaceTime 스타일 비디오 생성
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models
June 3, 2025
저자: Chetwin Low, Weimin Wang
cs.AI
초록
본 논문에서는 사전 학습된 비디오 생성 모델을 실시간 오디오 기반 캐릭터 애니메이터로 변환하는 효율적인 프레임워크인 TalkingMachines를 소개합니다. TalkingMachines는 오디오 대형 언어 모델(LLM)과 비디오 생성 기반 모델을 통합하여 자연스러운 대화 경험을 가능하게 합니다. 우리의 주요 기여는 다음과 같습니다: (1) 사전 학습된 최첨단 이미지-비디오 DiT를 180억 파라미터의 오디오 기반 아바타 생성 모델로 적응시켰습니다; (2) 양방향 교사 모델로부터 희소 인과적 자기회귀 학생 모델로의 비대칭 지식 증류를 통해 오류 누적 없이 무한 비디오 스트리밍을 가능하게 했습니다; (3) 고처리량, 저지연 추론 파이프라인을 설계하여 다음과 같은 주요 엔지니어링 최적화를 도입했습니다: (a) DiT와 VAE 디코더를 별도의 장치로 분리, (b) CUDA 스트림을 사용한 장치 간 통신과 계산의 효율적 중첩, (c) 프레임 생성 처리량 극대화를 위한 불필요한 재계산 제거. 데모 비디오는 여기에서 확인하실 수 있습니다 - https://aaxwaz.github.io/TalkingMachines/
English
In this paper, we present TalkingMachines -- an efficient framework that
transforms pretrained video generation models into real-time, audio-driven
character animators. TalkingMachines enables natural conversational experiences
by integrating an audio large language model (LLM) with our video generation
foundation model. Our primary contributions include: (1) We adapt a pretrained
SOTA image-to-video DiT into an audio-driven avatar generation model of 18
billion parameters; (2) We enable infinite video streaming without error
accumulation through asymmetric knowledge distillation from a bidirectional
teacher model into a sparse causal, autoregressive student model; (3) We design
a high-throughput, low-latency inference pipeline incorporating several key
engineering optimizations such as: (a) disaggregation of the DiT and VAE
decoder across separate devices, (b) efficient overlap of inter-device
communication and computation using CUDA streams, (c) elimination of redundant
recomputations to maximize frame-generation throughput. Please see demo videos
here - https://aaxwaz.github.io/TalkingMachines/