T3M: 음성으로부터 안내받는 텍스트 기반 3D 인간 동작 합성
T3M: Text Guided 3D Human Motion Synthesis from Speech
August 23, 2024
저자: Wenshuo Peng, Kaipeng Zhang, Sai Qian Zhang
cs.AI
초록
음성 주도 3D 동작 합성은 인간의 음성을 기반으로 사실적인 애니메이션을 만들고 가상 현실, 게임 및 영화 제작 등 다양한 용도에 활용하려는 것을 목표로 합니다. 기존 접근 방식은 동작 생성을 위해 음성 오디오만을 사용하여 정확하지 않고 융통성이 떨어지는 합성 결과를 초래했습니다. 이 문제를 해결하기 위해 우리는 텍스트로 안내되는 3D 인간 동작 합성 방법인 T3M을 소개합니다. 전통적인 방법과 달리 T3M은 텍스트 입력을 통해 동작 합성을 정밀하게 제어할 수 있어 다양성과 사용자 맞춤화의 정도를 향상시킵니다. 실험 결과는 T3M이 양적 측정 항목과 질적 평가 모두에서 최첨단 방법을 크게 능가할 수 있다는 것을 입증합니다. 우리는 코드를 https://github.com/Gloria2tt/T3M.git에서 공개로 제공하였습니다.
English
Speech-driven 3D motion synthesis seeks to create lifelike animations based
on human speech, with potential uses in virtual reality, gaming, and the film
production. Existing approaches reply solely on speech audio for motion
generation, leading to inaccurate and inflexible synthesis results. To mitigate
this problem, we introduce a novel text-guided 3D human motion synthesis
method, termed T3M. Unlike traditional approaches, T3M allows precise
control over motion synthesis via textual input, enhancing the degree of
diversity and user customization. The experiment results demonstrate that T3M
can greatly outperform the state-of-the-art methods in both quantitative
metrics and qualitative evaluations. We have publicly released our code at
https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}Summary
AI-Generated Summary