T3M: Síntese de Movimento Humano 3D Guiada por Texto a partir da Fala
T3M: Text Guided 3D Human Motion Synthesis from Speech
August 23, 2024
Autores: Wenshuo Peng, Kaipeng Zhang, Sai Qian Zhang
cs.AI
Resumo
A síntese de movimento 3D orientada por fala busca criar animações realistas com base na fala humana, com potenciais usos em realidade virtual, jogos e produção cinematográfica. As abordagens existentes dependem exclusivamente do áudio da fala para a geração de movimento, resultando em resultados de síntese imprecisos e inflexíveis. Para mitigar esse problema, introduzimos um novo método de síntese de movimento humano 3D guiado por texto, denominado T3M. Ao contrário das abordagens tradicionais, o T3M permite um controle preciso sobre a síntese de movimento por meio de entrada textual, aumentando o grau de diversidade e personalização do usuário. Os resultados experimentais demonstram que o T3M pode superar significativamente os métodos de ponta tanto em métricas quantitativas quanto em avaliações qualitativas. Disponibilizamos publicamente nosso código em https://github.com/Gloria2tt/T3M.git.
English
Speech-driven 3D motion synthesis seeks to create lifelike animations based
on human speech, with potential uses in virtual reality, gaming, and the film
production. Existing approaches reply solely on speech audio for motion
generation, leading to inaccurate and inflexible synthesis results. To mitigate
this problem, we introduce a novel text-guided 3D human motion synthesis
method, termed T3M. Unlike traditional approaches, T3M allows precise
control over motion synthesis via textual input, enhancing the degree of
diversity and user customization. The experiment results demonstrate that T3M
can greatly outperform the state-of-the-art methods in both quantitative
metrics and qualitative evaluations. We have publicly released our code at
https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}Summary
AI-Generated Summary