ChatPaper.aiChatPaper

Stack-and-Delay: Ein neues Codebuchmuster für die Musikerzeugung

Stack-and-Delay: a new codebook pattern for music generation

September 15, 2023
Autoren: Gael Le Lan, Varun Nagaraja, Ernie Chang, David Kant, Zhaoheng Ni, Yangyang Shi, Forrest Iandola, Vikas Chandra
cs.AI

Zusammenfassung

Bei der sprachmodellbasierten Musikerzeugung wird ein erzeugtes Wellenformsignal durch eine Sequenz hierarchischer Token-Stapel dargestellt, die entweder auf autoregressive Weise oder parallel dekodiert werden können, abhängig von den Codebook-Mustern. Insbesondere stellt das Abflachen der Codebooks die Strategie mit der höchsten Dekodierungsqualität dar, ist jedoch bekanntlich langsam. Zu diesem Zweck schlagen wir eine neuartige Stapel-und-Verzögerungs-Dekodierungsstrategie vor, um die flache Musterdekodierung zu verbessern, bei der die Erzeugungsgeschwindigkeit im Vergleich zur herkömmlichen flachen Dekodierung viermal schneller ist. Dies bringt die Inferenzzeit nahe an die der Verzögerungsdekodierungsstrategie und ermöglicht eine schnellere Inferenz auf der GPU bei kleinen Batch-Größen. Bei demselben Inferenzeffizienzbudget wie beim Verzögerungsmuster zeigen wir, dass der vorgeschlagene Ansatz bei objektiven Bewertungen besser abschneidet und die Qualitätslücke zum flachen Muster nahezu schließt. Die Ergebnisse werden durch subjektive Bewertungen gestützt, die zeigen, dass die vom neuen Modell erzeugten Samples bei denselben Textprompts leicht häufiger bevorzugt werden als die von dem konkurrierenden Modell erzeugten Samples.
English
In language modeling based music generation, a generated waveform is represented by a sequence of hierarchical token stacks that can be decoded either in an auto-regressive manner or in parallel, depending on the codebook patterns. In particular, flattening the codebooks represents the highest quality decoding strategy, while being notoriously slow. To this end, we propose a novel stack-and-delay style of decoding strategy to improve upon the flat pattern decoding where generation speed is four times faster as opposed to vanilla flat decoding. This brings the inference time close to that of the delay decoding strategy, and allows for faster inference on GPU for small batch sizes. For the same inference efficiency budget as the delay pattern, we show that the proposed approach performs better in objective evaluations, almost closing the gap with the flat pattern in terms of quality. The results are corroborated by subjective evaluations which show that samples generated by the new model are slightly more often preferred to samples generated by the competing model given the same text prompts.
PDF50December 15, 2024