루피: 장기간 동작 의존성을 가진 오디오 주도 초상화 아바타를 다루다
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency
September 4, 2024
저자: Jianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng
cs.AI
초록
확산 기반 비디오 생성 기술의 도입으로 최근 오디오 조건부 인간 비디오 생성은 움직임의 자연스러움과 초상 세부 사항의 합성에서 상당한 진전을 이루었습니다. 인간의 움직임을 주도하는 오디오 신호의 제한된 제어로 인해 기존 방법은 종종 보조 공간 신호를 추가하여 움직임을 안정화시키는데, 이는 움직임의 자연스러움과 자유를 저해할 수 있습니다. 본 논문에서는 오디오만을 조건으로 하는 비디오 확산 모델인 Loopy를 제안합니다. 구체적으로, 우리는 클립 간 및 클립 내 시간 모듈 및 오디오-잠재 모듈을 설계하여 모델이 데이터에서 장기간 움직임 정보를 활용하여 자연스러운 움직임 패턴을 학습하고 오디오-초상 움직임 상관 관계를 향상시킬 수 있도록 했습니다. 이 방법은 추론 중 움직임을 제약하기 위해 기존 방법에서 사용되는 수동으로 지정된 공간 움직임 템플릿의 필요성을 제거합니다. 광범위한 실험 결과 Loopy가 최근의 오디오 주도 초상 확산 모델을 능가하여 다양한 시나리오에서 더 생동감 있고 고품질의 결과를 제공함을 보여줍니다.
English
With the introduction of diffusion-based video generation techniques,
audio-conditioned human video generation has recently achieved significant
breakthroughs in both the naturalness of motion and the synthesis of portrait
details. Due to the limited control of audio signals in driving human motion,
existing methods often add auxiliary spatial signals to stabilize movements,
which may compromise the naturalness and freedom of motion. In this paper, we
propose an end-to-end audio-only conditioned video diffusion model named Loopy.
Specifically, we designed an inter- and intra-clip temporal module and an
audio-to-latents module, enabling the model to leverage long-term motion
information from the data to learn natural motion patterns and improving
audio-portrait movement correlation. This method removes the need for manually
specified spatial motion templates used in existing methods to constrain motion
during inference. Extensive experiments show that Loopy outperforms recent
audio-driven portrait diffusion models, delivering more lifelike and
high-quality results across various scenarios.Summary
AI-Generated Summary