UniMuMo: Generazione Unificata di Testo, Musica e Movimento
UniMuMo: Unified Text, Music and Motion Generation
October 6, 2024
Autori: Han Yang, Kun Su, Yutong Zhang, Jiaben Chen, Kaizhi Qian, Gaowen Liu, Chuang Gan
cs.AI
Abstract
Introduciamo UniMuMo, un modello multimodale unificato in grado di utilizzare dati di testo, musica e movimento arbitrari come condizioni di input per generare output attraverso tutte e tre le modalità. Per affrontare la mancanza di dati sincronizzati nel tempo, allineiamo dati non accoppiati di musica e movimento basandoci sui pattern ritmici per sfruttare i già esistenti dataset di sola musica e di solo movimento su larga scala. Convertendo musica, movimento e testo in una rappresentazione basata su token, il nostro modello collega queste modalità attraverso un'architettura trasformatrice unificata codificatore-decodificatore. Per supportare molteplici compiti di generazione all'interno di un singolo framework, introduciamo diversi miglioramenti architetturali. Proponiamo di codificare il movimento con un libro dei codici della musica, mappando il movimento nello stesso spazio delle caratteristiche della musica. Introduciamo uno schema di generazione parallela musica-movimento che unifica tutti i compiti di generazione di musica e movimento in un'unica architettura decodificatore trasformatore con un singolo compito di addestramento di generazione congiunta di musica e movimento. Inoltre, il modello è progettato mediante il raffinamento di modelli preaddestrati monomodalità esistenti, riducendo significativamente le richieste computazionali. Estesi esperimenti dimostrano che UniMuMo ottiene risultati competitivi su tutti i benchmark di generazione unidirezionale attraverso le modalità di musica, movimento e testo. I risultati quantitativi sono disponibili nella pagina del progetto: https://hanyangclarence.github.io/unimumo_demo/.
English
We introduce UniMuMo, a unified multimodal model capable of taking arbitrary
text, music, and motion data as input conditions to generate outputs across all
three modalities. To address the lack of time-synchronized data, we align
unpaired music and motion data based on rhythmic patterns to leverage existing
large-scale music-only and motion-only datasets. By converting music, motion,
and text into token-based representation, our model bridges these modalities
through a unified encoder-decoder transformer architecture. To support multiple
generation tasks within a single framework, we introduce several architectural
improvements. We propose encoding motion with a music codebook, mapping motion
into the same feature space as music. We introduce a music-motion parallel
generation scheme that unifies all music and motion generation tasks into a
single transformer decoder architecture with a single training task of
music-motion joint generation. Moreover, the model is designed by fine-tuning
existing pre-trained single-modality models, significantly reducing
computational demands. Extensive experiments demonstrate that UniMuMo achieves
competitive results on all unidirectional generation benchmarks across music,
motion, and text modalities. Quantitative results are available in the
https://hanyangclarence.github.io/unimumo_demo/{project page}.