T3M: Sintesi del Movimento Umano 3D Guidata da Testo a Partire dal Discorso
T3M: Text Guided 3D Human Motion Synthesis from Speech
August 23, 2024
Autori: Wenshuo Peng, Kaipeng Zhang, Sai Qian Zhang
cs.AI
Abstract
La sintesi di movimenti 3D guidata dal parlato mira a creare animazioni realistiche basate sul discorso umano, con potenziali applicazioni nella realtà virtuale, nei giochi e nella produzione cinematografica. Gli approcci esistenti si basano esclusivamente sull'audio del parlato per la generazione del movimento, portando a risultati di sintesi imprecisi e poco flessibili. Per mitigare questo problema, introduciamo un nuovo metodo di sintesi del movimento umano 3D guidato da testo, denominato T3M. A differenza degli approcci tradizionali, T3M consente un controllo preciso sulla sintesi del movimento tramite input testuale, migliorando il grado di diversità e personalizzazione da parte dell'utente. I risultati degli esperimenti dimostrano che T3M può superare notevolmente i metodi all'avanguardia sia nelle metriche quantitative che nelle valutazioni qualitative. Abbiamo reso pubblico il nostro codice all'indirizzo https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}.
English
Speech-driven 3D motion synthesis seeks to create lifelike animations based
on human speech, with potential uses in virtual reality, gaming, and the film
production. Existing approaches reply solely on speech audio for motion
generation, leading to inaccurate and inflexible synthesis results. To mitigate
this problem, we introduce a novel text-guided 3D human motion synthesis
method, termed T3M. Unlike traditional approaches, T3M allows precise
control over motion synthesis via textual input, enhancing the degree of
diversity and user customization. The experiment results demonstrate that T3M
can greatly outperform the state-of-the-art methods in both quantitative
metrics and qualitative evaluations. We have publicly released our code at
https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}