UniMuMo : Génération unifiée de texte, musique et mouvement

papers.abstract

Nous présentons UniMuMo, un modèle multimodal unifié capable de prendre des données textuelles, musicales et de mouvement arbitraires en tant que conditions d'entrée pour générer des sorties dans les trois modalités. Pour pallier le manque de données synchronisées dans le temps, nous alignons des données musicales et de mouvement non appariées en fonction de motifs rythmiques pour exploiter les ensembles de données existants de musique seule et de mouvement seul à grande échelle. En convertissant la musique, le mouvement et le texte en une représentation basée sur des jetons, notre modèle relie ces modalités à travers une architecture de transformateur encodeur-décodeur unifiée. Pour prendre en charge plusieurs tâches de génération dans un seul cadre, nous introduisons plusieurs améliorations architecturales. Nous proposons d'encoder le mouvement avec un codebook musical, en cartographiant le mouvement dans le même espace de caractéristiques que la musique. Nous introduisons un schéma de génération parallèle musique-mouvement qui unifie toutes les tâches de génération de musique et de mouvement dans une seule architecture de décodeur de transformateur avec une seule tâche d'entraînement de génération conjointe musique-mouvement. De plus, le modèle est conçu en affinant des modèles pré-entraînés monomodal existants, réduisant ainsi considérablement les exigences computationnelles. Des expériences approfondies démontrent qu'UniMuMo obtient des résultats compétitifs sur tous les bancs d'essai de génération unidirectionnelle dans les modalités musique, mouvement et texte. Les résultats quantitatifs sont disponibles sur la page du projet : https://hanyangclarence.github.io/unimumo_demo/.

English

We introduce UniMuMo, a unified multimodal model capable of taking arbitrary text, music, and motion data as input conditions to generate outputs across all three modalities. To address the lack of time-synchronized data, we align unpaired music and motion data based on rhythmic patterns to leverage existing large-scale music-only and motion-only datasets. By converting music, motion, and text into token-based representation, our model bridges these modalities through a unified encoder-decoder transformer architecture. To support multiple generation tasks within a single framework, we introduce several architectural improvements. We propose encoding motion with a music codebook, mapping motion into the same feature space as music. We introduce a music-motion parallel generation scheme that unifies all music and motion generation tasks into a single transformer decoder architecture with a single training task of music-motion joint generation. Moreover, the model is designed by fine-tuning existing pre-trained single-modality models, significantly reducing computational demands. Extensive experiments demonstrate that UniMuMo achieves competitive results on all unidirectional generation benchmarks across music, motion, and text modalities. Quantitative results are available in the https://hanyangclarence.github.io/unimumo_demo/{project page}.

UniMuMo : Génération unifiée de texte, musique et mouvement

UniMuMo: Unified Text, Music and Motion Generation

papers.abstract

Support