ChatPaper.aiChatPaper

T3M: Синтез движения человека в 3D по текстовому направлению из речи

T3M: Text Guided 3D Human Motion Synthesis from Speech

August 23, 2024
Авторы: Wenshuo Peng, Kaipeng Zhang, Sai Qian Zhang
cs.AI

Аннотация

Синтез трехмерного движения по голосу направлен на создание реалистичной анимации на основе человеческой речи с возможным применением в виртуальной реальности, играх и киноиндустрии. Существующие подходы полагаются исключительно на аудиозапись речи для генерации движения, что приводит к неточным и неэластичным результатам синтеза. Для решения этой проблемы мы представляем новый метод синтеза трехмерного движения человека под управлением текста, названный T3M. В отличие от традиционных подходов, T3M позволяет точное управление синтезом движения с помощью текстового ввода, увеличивая степень разнообразия и настройки пользователей. Результаты экспериментов показывают, что T3M может значительно превзойти современные методы как по количественным метрикам, так и по качественным оценкам. Мы публично опубликовали наш код на https://github.com/Gloria2tt/T3M.git.
English
Speech-driven 3D motion synthesis seeks to create lifelike animations based on human speech, with potential uses in virtual reality, gaming, and the film production. Existing approaches reply solely on speech audio for motion generation, leading to inaccurate and inflexible synthesis results. To mitigate this problem, we introduce a novel text-guided 3D human motion synthesis method, termed T3M. Unlike traditional approaches, T3M allows precise control over motion synthesis via textual input, enhancing the degree of diversity and user customization. The experiment results demonstrate that T3M can greatly outperform the state-of-the-art methods in both quantitative metrics and qualitative evaluations. We have publicly released our code at https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}

Summary

AI-Generated Summary

PDF132November 16, 2024