UniMuMo : Génération unifiée de texte, musique et mouvement
UniMuMo: Unified Text, Music and Motion Generation
October 6, 2024
Auteurs: Han Yang, Kun Su, Yutong Zhang, Jiaben Chen, Kaizhi Qian, Gaowen Liu, Chuang Gan
cs.AI
Résumé
Nous présentons UniMuMo, un modèle multimodal unifié capable de prendre des données textuelles, musicales et de mouvement arbitraires en tant que conditions d'entrée pour générer des sorties dans les trois modalités. Pour pallier le manque de données synchronisées dans le temps, nous alignons des données musicales et de mouvement non appariées en fonction de motifs rythmiques pour exploiter les ensembles de données existants de musique seule et de mouvement seul à grande échelle. En convertissant la musique, le mouvement et le texte en une représentation basée sur des jetons, notre modèle relie ces modalités à travers une architecture de transformateur encodeur-décodeur unifiée. Pour prendre en charge plusieurs tâches de génération dans un seul cadre, nous introduisons plusieurs améliorations architecturales. Nous proposons d'encoder le mouvement avec un codebook musical, en cartographiant le mouvement dans le même espace de caractéristiques que la musique. Nous introduisons un schéma de génération parallèle musique-mouvement qui unifie toutes les tâches de génération de musique et de mouvement dans une seule architecture de décodeur de transformateur avec une seule tâche d'entraînement de génération conjointe musique-mouvement. De plus, le modèle est conçu en affinant des modèles pré-entraînés monomodal existants, réduisant ainsi considérablement les exigences computationnelles. Des expériences approfondies démontrent qu'UniMuMo obtient des résultats compétitifs sur tous les bancs d'essai de génération unidirectionnelle dans les modalités musique, mouvement et texte. Les résultats quantitatifs sont disponibles sur la page du projet : https://hanyangclarence.github.io/unimumo_demo/.
English
We introduce UniMuMo, a unified multimodal model capable of taking arbitrary
text, music, and motion data as input conditions to generate outputs across all
three modalities. To address the lack of time-synchronized data, we align
unpaired music and motion data based on rhythmic patterns to leverage existing
large-scale music-only and motion-only datasets. By converting music, motion,
and text into token-based representation, our model bridges these modalities
through a unified encoder-decoder transformer architecture. To support multiple
generation tasks within a single framework, we introduce several architectural
improvements. We propose encoding motion with a music codebook, mapping motion
into the same feature space as music. We introduce a music-motion parallel
generation scheme that unifies all music and motion generation tasks into a
single transformer decoder architecture with a single training task of
music-motion joint generation. Moreover, the model is designed by fine-tuning
existing pre-trained single-modality models, significantly reducing
computational demands. Extensive experiments demonstrate that UniMuMo achieves
competitive results on all unidirectional generation benchmarks across music,
motion, and text modalities. Quantitative results are available in the
https://hanyangclarence.github.io/unimumo_demo/{project page}.Summary
AI-Generated Summary