T3M: Sintesi del Movimento Umano 3D Guidata da Testo a Partire dal Discorso

Abstract

La sintesi di movimenti 3D guidata dal parlato mira a creare animazioni realistiche basate sul discorso umano, con potenziali applicazioni nella realtà virtuale, nei giochi e nella produzione cinematografica. Gli approcci esistenti si basano esclusivamente sull'audio del parlato per la generazione del movimento, portando a risultati di sintesi imprecisi e poco flessibili. Per mitigare questo problema, introduciamo un nuovo metodo di sintesi del movimento umano 3D guidato da testo, denominato T3M. A differenza degli approcci tradizionali, T3M consente un controllo preciso sulla sintesi del movimento tramite input testuale, migliorando il grado di diversità e personalizzazione da parte dell'utente. I risultati degli esperimenti dimostrano che T3M può superare notevolmente i metodi all'avanguardia sia nelle metriche quantitative che nelle valutazioni qualitative. Abbiamo reso pubblico il nostro codice all'indirizzo https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}.

English

Speech-driven 3D motion synthesis seeks to create lifelike animations based on human speech, with potential uses in virtual reality, gaming, and the film production. Existing approaches reply solely on speech audio for motion generation, leading to inaccurate and inflexible synthesis results. To mitigate this problem, we introduce a novel text-guided 3D human motion synthesis method, termed T3M. Unlike traditional approaches, T3M allows precise control over motion synthesis via textual input, enhancing the degree of diversity and user customization. The experiment results demonstrate that T3M can greatly outperform the state-of-the-art methods in both quantitative metrics and qualitative evaluations. We have publicly released our code at https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}

T3M: Sintesi del Movimento Umano 3D Guidata da Testo a Partire dal Discorso

T3M: Text Guided 3D Human Motion Synthesis from Speech

Abstract

Support