Make-An-Animation: Generazione su larga scala di movimenti umani 3D condizionati da testo

Abstract

La generazione di movimenti umani guidata da testo ha attirato un notevole interesse grazie alle sue applicazioni di impatto che spaziano dall'animazione alla robotica. Recentemente, l'applicazione di modelli di diffusione per la generazione di movimenti ha permesso di migliorare la qualità dei movimenti generati. Tuttavia, gli approcci esistenti sono limitati dalla loro dipendenza da dati di motion capture relativamente su piccola scala, portando a scarse prestazioni su prompt più diversificati e in contesti reali. In questo articolo, introduciamo Make-An-Animation, un modello di generazione di movimenti umani condizionato da testo che apprende pose e prompt più diversificati da dataset su larga scala di immagini e testo, consentendo un significativo miglioramento delle prestazioni rispetto ai lavori precedenti. Make-An-Animation viene addestrato in due fasi. In primo luogo, ci addestriamo su un dataset su larga scala curato di coppie (testo, pseudo-posa statica) estratte da dataset di immagini e testo. In secondo luogo, effettuiamo un fine-tuning su dati di motion capture, aggiungendo ulteriori strati per modellare la dimensione temporale. A differenza dei precedenti modelli di diffusione per la generazione di movimenti, Make-An-Animation utilizza un'architettura U-Net simile ai recenti modelli di generazione di video da testo. La valutazione umana del realismo dei movimenti e dell'allineamento con il testo di input mostra che il nostro modello raggiunge prestazioni all'avanguardia nella generazione di movimenti da testo.

English

Text-guided human motion generation has drawn significant interest because of its impactful applications spanning animation and robotics. Recently, application of diffusion models for motion generation has enabled improvements in the quality of generated motions. However, existing approaches are limited by their reliance on relatively small-scale motion capture data, leading to poor performance on more diverse, in-the-wild prompts. In this paper, we introduce Make-An-Animation, a text-conditioned human motion generation model which learns more diverse poses and prompts from large-scale image-text datasets, enabling significant improvement in performance over prior works. Make-An-Animation is trained in two stages. First, we train on a curated large-scale dataset of (text, static pseudo-pose) pairs extracted from image-text datasets. Second, we fine-tune on motion capture data, adding additional layers to model the temporal dimension. Unlike prior diffusion models for motion generation, Make-An-Animation uses a U-Net architecture similar to recent text-to-video generation models. Human evaluation of motion realism and alignment with input text shows that our model reaches state-of-the-art performance on text-to-motion generation.

Make-An-Animation: Generazione su larga scala di movimenti umani 3D condizionati da testo

Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

Abstract

Support