T3M:音声によるテキスト案内付き3次元人間動作合成
T3M: Text Guided 3D Human Motion Synthesis from Speech
August 23, 2024
著者: Wenshuo Peng, Kaipeng Zhang, Sai Qian Zhang
cs.AI
要旨
音声による3Dモーション合成は、人間の音声に基づいたリアルなアニメーションを作成することを目指し、仮想現実、ゲーム、映画制作などでの潜在的な利用があります。既存の手法は、モーション生成に音声オーディオのみを使用しており、不正確で柔軟性に欠ける合成結果をもたらしています。この問題を緩和するために、我々は新しいテキストによる3D人間モーション合成手法、T3Mを導入します。従来の手法とは異なり、T3Mはテキスト入力を介してモーション合成を正確に制御することができ、多様性とユーザーのカスタマイズの度合いを向上させます。実験結果は、T3Mが定量的指標と定性的評価の両方で最先端の手法を大幅に上回ることを示しています。当社のコードはhttps://github.com/Gloria2tt/T3M.git で公開されています。
English
Speech-driven 3D motion synthesis seeks to create lifelike animations based
on human speech, with potential uses in virtual reality, gaming, and the film
production. Existing approaches reply solely on speech audio for motion
generation, leading to inaccurate and inflexible synthesis results. To mitigate
this problem, we introduce a novel text-guided 3D human motion synthesis
method, termed T3M. Unlike traditional approaches, T3M allows precise
control over motion synthesis via textual input, enhancing the degree of
diversity and user customization. The experiment results demonstrate that T3M
can greatly outperform the state-of-the-art methods in both quantitative
metrics and qualitative evaluations. We have publicly released our code at
https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}Summary
AI-Generated Summary