MIDAS: 실시간 자기회귀 비디오 생성을 통한 다중모달 상호작용 디지털 휴먼 합성
MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation
August 26, 2025
저자: Ming Chen, Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Xiaoqiang Liu, Pengfei Wan
cs.AI
초록
최근, 인터랙티브 디지털 휴먼 비디오 생성이 광범위한 관심을 끌며 눈부신 발전을 이루었습니다. 그러나 다양한 입력 신호와 실시간으로 상호작용할 수 있는 실용적인 시스템을 구축하는 것은 여전히 기존 방법들에 있어 어려운 과제로 남아 있습니다. 이는 높은 지연 시간, 과도한 계산 비용, 그리고 제한된 제어 가능성 등의 문제로 인해 발생합니다. 본 연구에서는 스트리밍 방식으로 인터랙티브 멀티모달 제어와 저지연 외삽을 가능하게 하는 자기회귀적 비디오 생성 프레임워크를 소개합니다. 표준 대형 언어 모델(LLM)에 최소한의 수정을 가해, 오디오, 포즈, 텍스트를 포함한 멀티모달 조건 인코딩을 입력받고, 공간적 및 의미적으로 일관된 표현을 출력하여 확산 모델의 디노이징 프로세스를 안내합니다. 이를 지원하기 위해, 다양한 소스로부터 약 20,000시간 규모의 대규모 대화 데이터셋을 구축하여 풍부한 대화 시나리오를 제공합니다. 또한, 최대 64배의 압축 비율을 가진 심층 압축 오토인코더를 도입하여 자기회귀 모델의 장기간 추론 부담을 효과적으로 완화합니다. 이중 대화, 다국어 휴먼 합성, 인터랙티브 월드 모델에 대한 광범위한 실험을 통해 저지연, 높은 효율성, 세밀한 멀티모달 제어 가능성에서 우리 접근법의 장점을 입증합니다.
English
Recently, interactive digital human video generation has attracted widespread
attention and achieved remarkable progress. However, building such a practical
system that can interact with diverse input signals in real time remains
challenging to existing methods, which often struggle with high latency, heavy
computational cost, and limited controllability. In this work, we introduce an
autoregressive video generation framework that enables interactive multimodal
control and low-latency extrapolation in a streaming manner. With minimal
modifications to a standard large language model (LLM), our framework accepts
multimodal condition encodings including audio, pose, and text, and outputs
spatially and semantically coherent representations to guide the denoising
process of a diffusion head. To support this, we construct a large-scale
dialogue dataset of approximately 20,000 hours from multiple sources, providing
rich conversational scenarios for training. We further introduce a deep
compression autoencoder with up to 64times reduction ratio, which
effectively alleviates the long-horizon inference burden of the autoregressive
model. Extensive experiments on duplex conversation, multilingual human
synthesis, and interactive world model highlight the advantages of our approach
in low latency, high efficiency, and fine-grained multimodal controllability.