UniMuMo: Generazione Unificata di Testo, Musica e Movimento

Abstract

Introduciamo UniMuMo, un modello multimodale unificato in grado di utilizzare dati di testo, musica e movimento arbitrari come condizioni di input per generare output attraverso tutte e tre le modalità. Per affrontare la mancanza di dati sincronizzati nel tempo, allineiamo dati non accoppiati di musica e movimento basandoci sui pattern ritmici per sfruttare i già esistenti dataset di sola musica e di solo movimento su larga scala. Convertendo musica, movimento e testo in una rappresentazione basata su token, il nostro modello collega queste modalità attraverso un'architettura trasformatrice unificata codificatore-decodificatore. Per supportare molteplici compiti di generazione all'interno di un singolo framework, introduciamo diversi miglioramenti architetturali. Proponiamo di codificare il movimento con un libro dei codici della musica, mappando il movimento nello stesso spazio delle caratteristiche della musica. Introduciamo uno schema di generazione parallela musica-movimento che unifica tutti i compiti di generazione di musica e movimento in un'unica architettura decodificatore trasformatore con un singolo compito di addestramento di generazione congiunta di musica e movimento. Inoltre, il modello è progettato mediante il raffinamento di modelli preaddestrati monomodalità esistenti, riducendo significativamente le richieste computazionali. Estesi esperimenti dimostrano che UniMuMo ottiene risultati competitivi su tutti i benchmark di generazione unidirezionale attraverso le modalità di musica, movimento e testo. I risultati quantitativi sono disponibili nella pagina del progetto: https://hanyangclarence.github.io/unimumo_demo/.

English

We introduce UniMuMo, a unified multimodal model capable of taking arbitrary text, music, and motion data as input conditions to generate outputs across all three modalities. To address the lack of time-synchronized data, we align unpaired music and motion data based on rhythmic patterns to leverage existing large-scale music-only and motion-only datasets. By converting music, motion, and text into token-based representation, our model bridges these modalities through a unified encoder-decoder transformer architecture. To support multiple generation tasks within a single framework, we introduce several architectural improvements. We propose encoding motion with a music codebook, mapping motion into the same feature space as music. We introduce a music-motion parallel generation scheme that unifies all music and motion generation tasks into a single transformer decoder architecture with a single training task of music-motion joint generation. Moreover, the model is designed by fine-tuning existing pre-trained single-modality models, significantly reducing computational demands. Extensive experiments demonstrate that UniMuMo achieves competitive results on all unidirectional generation benchmarks across music, motion, and text modalities. Quantitative results are available in the https://hanyangclarence.github.io/unimumo_demo/{project page}.

UniMuMo: Generazione Unificata di Testo, Musica e Movimento

UniMuMo: Unified Text, Music and Motion Generation

Abstract

Support