T3M: Textgesteuerte 3D-Menschbewegungssynthese aus Sprache
T3M: Text Guided 3D Human Motion Synthesis from Speech
August 23, 2024
Autoren: Wenshuo Peng, Kaipeng Zhang, Sai Qian Zhang
cs.AI
Zusammenfassung
Die sprachgesteuerte 3D-Bewegungssynthese zielt darauf ab, lebensechte Animationen basierend auf menschlicher Sprache zu erstellen, mit potenziellen Anwendungen in der virtuellen Realität, bei Spielen und in der Filmproduktion. Bestehende Ansätze stützen sich ausschließlich auf Sprachaudio zur Bewegungserzeugung, was zu ungenauen und unflexiblen Syntheseergebnissen führt. Um dieses Problem zu mildern, stellen wir eine neuartige textgesteuerte 3D-Humanbewegungssynthesemethode vor, genannt T3M. Im Gegensatz zu traditionellen Ansätzen ermöglicht T3M eine präzise Steuerung der Bewegungssynthese über textuelle Eingaben, was den Grad der Vielfalt und Benutzeranpassung erhöht. Die Experimentergebnisse zeigen, dass T3M sowohl in quantitativen Metriken als auch in qualitativen Bewertungen die state-of-the-art Methoden deutlich übertreffen kann. Wir haben unseren Code öffentlich unter https://github.com/Gloria2tt/T3M.git veröffentlicht.
English
Speech-driven 3D motion synthesis seeks to create lifelike animations based
on human speech, with potential uses in virtual reality, gaming, and the film
production. Existing approaches reply solely on speech audio for motion
generation, leading to inaccurate and inflexible synthesis results. To mitigate
this problem, we introduce a novel text-guided 3D human motion synthesis
method, termed T3M. Unlike traditional approaches, T3M allows precise
control over motion synthesis via textual input, enhancing the degree of
diversity and user customization. The experiment results demonstrate that T3M
can greatly outperform the state-of-the-art methods in both quantitative
metrics and qualitative evaluations. We have publicly released our code at
https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}Summary
AI-Generated Summary