ChatPaper.aiChatPaper

PerceiverS: 長期的な表現的なシンボリック音楽生成のための効果的なセグメンテーションを備えたマルチスケールパーセプタ

PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation

November 13, 2024
著者: Yungang Yi, Weihua Li, Matthew Kuo, Quan Bai
cs.AI

要旨

音楽生成は特にオーディオ生成の分野で大きく進歩しています。しかし、長期構造化されたかつ表現豊かな象徴的音楽を生成することは依然として重要な課題です。本論文では、この問題に取り組むために、効果的なセグメンテーションとマルチスケールアテンションメカニズムを活用することで設計された革新的なアーキテクチャであるPerceiverS(Segmentation and Scale)を提案します。我々のアプローチは、長期構造的な依存関係と短期的な表現的な詳細を同時に学習することによって、象徴的音楽生成を向上させます。マルチスケール設定でのクロスアテンションとセルフアテンションを組み合わせることで、PerceiverSは長距離の音楽的構造を捉えつつ、演奏の微妙なニュアンスを保持します。Maestroなどのデータセットで評価された提案モデルは、構造的な一貫性と表現的な変化を兼ね備えた、一貫性のある多様な音楽を生成することで改善を示しています。プロジェクトのデモや生成された音楽サンプルは、以下のリンクからアクセスできます:https://perceivers.github.io。
English
Music generation has progressed significantly, especially in the domain of audio generation. However, generating symbolic music that is both long-structured and expressive remains a significant challenge. In this paper, we propose PerceiverS (Segmentation and Scale), a novel architecture designed to address this issue by leveraging both Effective Segmentation and Multi-Scale attention mechanisms. Our approach enhances symbolic music generation by simultaneously learning long-term structural dependencies and short-term expressive details. By combining cross-attention and self-attention in a Multi-Scale setting, PerceiverS captures long-range musical structure while preserving performance nuances. The proposed model, evaluated on datasets like Maestro, demonstrates improvements in generating coherent and diverse music with both structural consistency and expressive variation. The project demos and the generated music samples can be accessed through the link: https://perceivers.github.io.

Summary

AI-Generated Summary

PDF62November 14, 2024