Stack-and-Delay : un nouveau motif de codebook pour la génération musicale
Stack-and-Delay: a new codebook pattern for music generation
September 15, 2023
Auteurs: Gael Le Lan, Varun Nagaraja, Ernie Chang, David Kant, Zhaoheng Ni, Yangyang Shi, Forrest Iandola, Vikas Chandra
cs.AI
Résumé
Dans la génération musicale basée sur la modélisation du langage, une onde générée est représentée par une séquence de piles de tokens hiérarchiques qui peuvent être décodées de manière auto-régressive ou en parallèle, selon les motifs des codebooks. En particulier, l'aplatissement des codebooks représente la stratégie de décodage de la plus haute qualité, tout en étant notoirement lent. À cette fin, nous proposons une nouvelle stratégie de décodage de type "empiler-et-retarder" pour améliorer le décodage par motif aplati, où la vitesse de génération est quatre fois plus rapide par rapport au décodage aplati classique. Cela rapproche le temps d'inférence de celui de la stratégie de décodage avec retard, et permet une inférence plus rapide sur GPU pour de petites tailles de lots. Pour un budget d'efficacité d'inférence équivalent à celui du motif avec retard, nous montrons que l'approche proposée obtient de meilleures performances dans les évaluations objectives, comblant presque l'écart de qualité avec le motif aplati. Les résultats sont corroborés par des évaluations subjectives qui montrent que les échantillons générés par le nouveau modèle sont légèrement plus souvent préférés aux échantillons générés par le modèle concurrent, pour les mêmes invites textuelles.
English
In language modeling based music generation, a generated waveform is
represented by a sequence of hierarchical token stacks that can be decoded
either in an auto-regressive manner or in parallel, depending on the codebook
patterns. In particular, flattening the codebooks represents the highest
quality decoding strategy, while being notoriously slow. To this end, we
propose a novel stack-and-delay style of decoding strategy to improve upon the
flat pattern decoding where generation speed is four times faster as opposed to
vanilla flat decoding. This brings the inference time close to that of the
delay decoding strategy, and allows for faster inference on GPU for small batch
sizes. For the same inference efficiency budget as the delay pattern, we show
that the proposed approach performs better in objective evaluations, almost
closing the gap with the flat pattern in terms of quality. The results are
corroborated by subjective evaluations which show that samples generated by the
new model are slightly more often preferred to samples generated by the
competing model given the same text prompts.