T3M: Синтез движения человека в 3D по текстовому направлению из речи
T3M: Text Guided 3D Human Motion Synthesis from Speech
August 23, 2024
Авторы: Wenshuo Peng, Kaipeng Zhang, Sai Qian Zhang
cs.AI
Аннотация
Синтез трехмерного движения по голосу направлен на создание реалистичной анимации на основе человеческой речи с возможным применением в виртуальной реальности, играх и киноиндустрии. Существующие подходы полагаются исключительно на аудиозапись речи для генерации движения, что приводит к неточным и неэластичным результатам синтеза. Для решения этой проблемы мы представляем новый метод синтеза трехмерного движения человека под управлением текста, названный T3M. В отличие от традиционных подходов, T3M позволяет точное управление синтезом движения с помощью текстового ввода, увеличивая степень разнообразия и настройки пользователей. Результаты экспериментов показывают, что T3M может значительно превзойти современные методы как по количественным метрикам, так и по качественным оценкам. Мы публично опубликовали наш код на https://github.com/Gloria2tt/T3M.git.
English
Speech-driven 3D motion synthesis seeks to create lifelike animations based
on human speech, with potential uses in virtual reality, gaming, and the film
production. Existing approaches reply solely on speech audio for motion
generation, leading to inaccurate and inflexible synthesis results. To mitigate
this problem, we introduce a novel text-guided 3D human motion synthesis
method, termed T3M. Unlike traditional approaches, T3M allows precise
control over motion synthesis via textual input, enhancing the degree of
diversity and user customization. The experiment results demonstrate that T3M
can greatly outperform the state-of-the-art methods in both quantitative
metrics and qualitative evaluations. We have publicly released our code at
https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}Summary
AI-Generated Summary