T3M : Synthèse de mouvement humain 3D guidée par texte à partir de la parole

Résumé

La synthèse de mouvement 3D pilotée par la parole vise à créer des animations réalistes basées sur la parole humaine, avec des utilisations potentielles en réalité virtuelle, dans les jeux vidéo et dans la production cinématographique. Les approches existantes se basent uniquement sur l'audio de la parole pour la génération de mouvement, ce qui entraîne des résultats de synthèse inexactes et rigides. Pour atténuer ce problème, nous introduisons une nouvelle méthode novatrice de synthèse de mouvement humain en 3D guidée par le texte, appelée T3M. Contrairement aux approches traditionnelles, T3M permet un contrôle précis de la synthèse de mouvement via une entrée textuelle, améliorant le degré de diversité et de personnalisation de l'utilisateur. Les résultats des expériences démontrent que T3M peut largement surpasser les méthodes de pointe à la fois en termes de mesures quantitatives et d'évaluations qualitatives. Nous avons rendu notre code public sur https://github.com/Gloria2tt/T3M.git.

English

Speech-driven 3D motion synthesis seeks to create lifelike animations based on human speech, with potential uses in virtual reality, gaming, and the film production. Existing approaches reply solely on speech audio for motion generation, leading to inaccurate and inflexible synthesis results. To mitigate this problem, we introduce a novel text-guided 3D human motion synthesis method, termed T3M. Unlike traditional approaches, T3M allows precise control over motion synthesis via textual input, enhancing the degree of diversity and user customization. The experiment results demonstrate that T3M can greatly outperform the state-of-the-art methods in both quantitative metrics and qualitative evaluations. We have publicly released our code at https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}