T3M: Síntesis de Movimiento Humano 3D Guiado por Texto a partir de Habla
T3M: Text Guided 3D Human Motion Synthesis from Speech
August 23, 2024
Autores: Wenshuo Peng, Kaipeng Zhang, Sai Qian Zhang
cs.AI
Resumen
La síntesis de movimiento 3D impulsada por voz busca crear animaciones realistas basadas en el habla humana, con posibles aplicaciones en realidad virtual, videojuegos y producción cinematográfica. Los enfoques existentes se basan únicamente en el audio del habla para la generación de movimiento, lo que resulta en resultados de síntesis inexactos e inflexibles. Para mitigar este problema, presentamos un novedoso método de síntesis de movimiento humano 3D guiado por texto, denominado T3M. A diferencia de los enfoques tradicionales, T3M permite un control preciso sobre la síntesis de movimiento a través de la entrada textual, mejorando el grado de diversidad y personalización del usuario. Los resultados experimentales demuestran que T3M puede superar ampliamente a los métodos de vanguardia tanto en métricas cuantitativas como en evaluaciones cualitativas. Hemos publicado nuestro código de forma gratuita en https://github.com/Gloria2tt/T3M.git.
English
Speech-driven 3D motion synthesis seeks to create lifelike animations based
on human speech, with potential uses in virtual reality, gaming, and the film
production. Existing approaches reply solely on speech audio for motion
generation, leading to inaccurate and inflexible synthesis results. To mitigate
this problem, we introduce a novel text-guided 3D human motion synthesis
method, termed T3M. Unlike traditional approaches, T3M allows precise
control over motion synthesis via textual input, enhancing the degree of
diversity and user customization. The experiment results demonstrate that T3M
can greatly outperform the state-of-the-art methods in both quantitative
metrics and qualitative evaluations. We have publicly released our code at
https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}Summary
AI-Generated Summary