PerceiverS: Um Perceiver Multiescala com Segmentação Efetiva para Geração de Música Simbólica Expressiva de Longo Prazo
PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation
November 13, 2024
Autores: Yungang Yi, Weihua Li, Matthew Kuo, Quan Bai
cs.AI
Resumo
A geração de música progrediu significativamente, especialmente no domínio da geração de áudio. No entanto, gerar música simbólica que seja ao mesmo tempo estruturada em longo prazo e expressiva continua sendo um desafio significativo. Neste artigo, propomos o PerceiverS (Segmentação e Escala), uma arquitetura inovadora projetada para abordar essa questão, aproveitando tanto mecanismos de Segmentação Efetiva quanto de Atenção Multi-Escala. Nossa abordagem aprimora a geração de música simbólica ao aprender simultaneamente dependências estruturais de longo prazo e detalhes expressivos de curto prazo. Ao combinar atenção cruzada e autoatenção em um ambiente Multi-Escala, o PerceiverS captura a estrutura musical de longo alcance preservando nuances de desempenho. O modelo proposto, avaliado em conjuntos de dados como o Maestro, demonstra melhorias na geração de música coerente e diversificada com consistência estrutural e variação expressiva. As demonstrações do projeto e as amostras de música geradas podem ser acessadas pelo link: https://perceivers.github.io.
English
Music generation has progressed significantly, especially in the domain of
audio generation. However, generating symbolic music that is both
long-structured and expressive remains a significant challenge. In this paper,
we propose PerceiverS (Segmentation and Scale), a novel architecture designed
to address this issue by leveraging both Effective Segmentation and Multi-Scale
attention mechanisms. Our approach enhances symbolic music generation by
simultaneously learning long-term structural dependencies and short-term
expressive details. By combining cross-attention and self-attention in a
Multi-Scale setting, PerceiverS captures long-range musical structure while
preserving performance nuances. The proposed model, evaluated on datasets like
Maestro, demonstrates improvements in generating coherent and diverse music
with both structural consistency and expressive variation. The project demos
and the generated music samples can be accessed through the link:
https://perceivers.github.io.