Make-An-Animation: 대규모 텍스트 조건부 3D 인간 동작 생성
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation
May 16, 2023
저자: Samaneh Azadi, Akbar Shah, Thomas Hayes, Devi Parikh, Sonal Gupta
cs.AI
초록
텍스트 기반 인간 동작 생성은 애니메이션과 로봇공학에 이르는 광범위한 응용 분야로 인해 상당한 관심을 받고 있습니다. 최근, 동작 생성에 확산 모델(diffusion model)을 적용함으로써 생성된 동작의 품질이 향상되었습니다. 그러나 기존 접근법은 비교적 소규모의 모션 캡처 데이터에 의존함으로써 제한적이며, 이로 인해 더 다양하고 실제 환경에 가까운 프롬프트에 대해 낮은 성능을 보이는 문제가 있습니다. 본 논문에서는 대규모 이미지-텍스트 데이터셋으로부터 더 다양한 자세와 프롬프트를 학습함으로써 기존 연구 대비 성능을 크게 개선한 텍스트 조건부 인간 동작 생성 모델인 Make-An-Animation을 소개합니다. Make-An-Animation은 두 단계로 학습됩니다. 첫째, 이미지-텍스트 데이터셋에서 추출한 (텍스트, 정적 가상 자세) 쌍으로 구성된 대규모 데이터셋에 대해 학습합니다. 둘째, 모션 캡처 데이터에 대해 미세 조정(fine-tuning)을 수행하며, 시간 차원을 모델링하기 위해 추가 레이어를 도입합니다. 기존의 동작 생성용 확산 모델과 달리, Make-An-Animation은 최근의 텍스트-투-비디오 생성 모델과 유사한 U-Net 아키텍처를 사용합니다. 인간 평가를 통해 동작의 현실감과 입력 텍스트와의 정렬성을 측정한 결과, 본 모델이 텍스트-투-모션 생성 분야에서 최첨단 성능을 달성함을 확인했습니다.
English
Text-guided human motion generation has drawn significant interest because of
its impactful applications spanning animation and robotics. Recently,
application of diffusion models for motion generation has enabled improvements
in the quality of generated motions. However, existing approaches are limited
by their reliance on relatively small-scale motion capture data, leading to
poor performance on more diverse, in-the-wild prompts. In this paper, we
introduce Make-An-Animation, a text-conditioned human motion generation model
which learns more diverse poses and prompts from large-scale image-text
datasets, enabling significant improvement in performance over prior works.
Make-An-Animation is trained in two stages. First, we train on a curated
large-scale dataset of (text, static pseudo-pose) pairs extracted from
image-text datasets. Second, we fine-tune on motion capture data, adding
additional layers to model the temporal dimension. Unlike prior diffusion
models for motion generation, Make-An-Animation uses a U-Net architecture
similar to recent text-to-video generation models. Human evaluation of motion
realism and alignment with input text shows that our model reaches
state-of-the-art performance on text-to-motion generation.