ChatPaper.aiChatPaper

Stack-and-Delay: un nuovo schema di codebook per la generazione musicale

Stack-and-Delay: a new codebook pattern for music generation

September 15, 2023
Autori: Gael Le Lan, Varun Nagaraja, Ernie Chang, David Kant, Zhaoheng Ni, Yangyang Shi, Forrest Iandola, Vikas Chandra
cs.AI

Abstract

Nella generazione musicale basata su modelli linguistici, una forma d'onda generata è rappresentata da una sequenza di stack gerarchici di token che possono essere decodificati in modo auto-regressivo o parallelo, a seconda dei pattern dei codebook. In particolare, l'appiattimento dei codebook rappresenta la strategia di decodifica di qualità più elevata, sebbene sia notoriamente lenta. A tal fine, proponiamo una nuova strategia di decodifica di tipo "stack-and-delay" per migliorare la decodifica con pattern piatto, dove la velocità di generazione è quattro volte più veloce rispetto alla decodifica piatta tradizionale. Ciò avvicina il tempo di inferenza a quello della strategia di decodifica con ritardo e consente un'inferenza più rapida su GPU per dimensioni di batch ridotte. Con lo stesso budget di efficienza di inferenza del pattern con ritardo, dimostriamo che l'approccio proposto ottiene risultati migliori nelle valutazioni oggettive, quasi colmando il divario con il pattern piatto in termini di qualità. I risultati sono confermati da valutazioni soggettive che mostrano come i campioni generati dal nuovo modello siano leggermente più spesso preferiti rispetto a quelli generati dal modello concorrente, dati gli stessi prompt testuali.
English
In language modeling based music generation, a generated waveform is represented by a sequence of hierarchical token stacks that can be decoded either in an auto-regressive manner or in parallel, depending on the codebook patterns. In particular, flattening the codebooks represents the highest quality decoding strategy, while being notoriously slow. To this end, we propose a novel stack-and-delay style of decoding strategy to improve upon the flat pattern decoding where generation speed is four times faster as opposed to vanilla flat decoding. This brings the inference time close to that of the delay decoding strategy, and allows for faster inference on GPU for small batch sizes. For the same inference efficiency budget as the delay pattern, we show that the proposed approach performs better in objective evaluations, almost closing the gap with the flat pattern in terms of quality. The results are corroborated by subjective evaluations which show that samples generated by the new model are slightly more often preferred to samples generated by the competing model given the same text prompts.
PDF40February 8, 2026