Make-An-Animation: Generazione su larga scala di movimenti umani 3D condizionati da testo
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation
May 16, 2023
Autori: Samaneh Azadi, Akbar Shah, Thomas Hayes, Devi Parikh, Sonal Gupta
cs.AI
Abstract
La generazione di movimenti umani guidata da testo ha attirato un notevole interesse grazie alle sue applicazioni di impatto che spaziano dall'animazione alla robotica. Recentemente, l'applicazione di modelli di diffusione per la generazione di movimenti ha permesso di migliorare la qualità dei movimenti generati. Tuttavia, gli approcci esistenti sono limitati dalla loro dipendenza da dati di motion capture relativamente su piccola scala, portando a scarse prestazioni su prompt più diversificati e in contesti reali. In questo articolo, introduciamo Make-An-Animation, un modello di generazione di movimenti umani condizionato da testo che apprende pose e prompt più diversificati da dataset su larga scala di immagini e testo, consentendo un significativo miglioramento delle prestazioni rispetto ai lavori precedenti. Make-An-Animation viene addestrato in due fasi. In primo luogo, ci addestriamo su un dataset su larga scala curato di coppie (testo, pseudo-posa statica) estratte da dataset di immagini e testo. In secondo luogo, effettuiamo un fine-tuning su dati di motion capture, aggiungendo ulteriori strati per modellare la dimensione temporale. A differenza dei precedenti modelli di diffusione per la generazione di movimenti, Make-An-Animation utilizza un'architettura U-Net simile ai recenti modelli di generazione di video da testo. La valutazione umana del realismo dei movimenti e dell'allineamento con il testo di input mostra che il nostro modello raggiunge prestazioni all'avanguardia nella generazione di movimenti da testo.
English
Text-guided human motion generation has drawn significant interest because of
its impactful applications spanning animation and robotics. Recently,
application of diffusion models for motion generation has enabled improvements
in the quality of generated motions. However, existing approaches are limited
by their reliance on relatively small-scale motion capture data, leading to
poor performance on more diverse, in-the-wild prompts. In this paper, we
introduce Make-An-Animation, a text-conditioned human motion generation model
which learns more diverse poses and prompts from large-scale image-text
datasets, enabling significant improvement in performance over prior works.
Make-An-Animation is trained in two stages. First, we train on a curated
large-scale dataset of (text, static pseudo-pose) pairs extracted from
image-text datasets. Second, we fine-tune on motion capture data, adding
additional layers to model the temporal dimension. Unlike prior diffusion
models for motion generation, Make-An-Animation uses a U-Net architecture
similar to recent text-to-video generation models. Human evaluation of motion
realism and alignment with input text shows that our model reaches
state-of-the-art performance on text-to-motion generation.