Stack-and-Delay: un nuovo schema di codebook per la generazione musicale
Stack-and-Delay: a new codebook pattern for music generation
September 15, 2023
Autori: Gael Le Lan, Varun Nagaraja, Ernie Chang, David Kant, Zhaoheng Ni, Yangyang Shi, Forrest Iandola, Vikas Chandra
cs.AI
Abstract
Nella generazione musicale basata su modelli linguistici, una forma d'onda generata è rappresentata da una sequenza di stack gerarchici di token che possono essere decodificati in modo auto-regressivo o parallelo, a seconda dei pattern dei codebook. In particolare, l'appiattimento dei codebook rappresenta la strategia di decodifica di qualità più elevata, sebbene sia notoriamente lenta. A tal fine, proponiamo una nuova strategia di decodifica di tipo "stack-and-delay" per migliorare la decodifica con pattern piatto, dove la velocità di generazione è quattro volte più veloce rispetto alla decodifica piatta tradizionale. Ciò avvicina il tempo di inferenza a quello della strategia di decodifica con ritardo e consente un'inferenza più rapida su GPU per dimensioni di batch ridotte. Con lo stesso budget di efficienza di inferenza del pattern con ritardo, dimostriamo che l'approccio proposto ottiene risultati migliori nelle valutazioni oggettive, quasi colmando il divario con il pattern piatto in termini di qualità. I risultati sono confermati da valutazioni soggettive che mostrano come i campioni generati dal nuovo modello siano leggermente più spesso preferiti rispetto a quelli generati dal modello concorrente, dati gli stessi prompt testuali.
English
In language modeling based music generation, a generated waveform is
represented by a sequence of hierarchical token stacks that can be decoded
either in an auto-regressive manner or in parallel, depending on the codebook
patterns. In particular, flattening the codebooks represents the highest
quality decoding strategy, while being notoriously slow. To this end, we
propose a novel stack-and-delay style of decoding strategy to improve upon the
flat pattern decoding where generation speed is four times faster as opposed to
vanilla flat decoding. This brings the inference time close to that of the
delay decoding strategy, and allows for faster inference on GPU for small batch
sizes. For the same inference efficiency budget as the delay pattern, we show
that the proposed approach performs better in objective evaluations, almost
closing the gap with the flat pattern in terms of quality. The results are
corroborated by subjective evaluations which show that samples generated by the
new model are slightly more often preferred to samples generated by the
competing model given the same text prompts.