ChatPaper.aiChatPaper

Stack-and-Delay: um novo padrão de codebook para geração de música

Stack-and-Delay: a new codebook pattern for music generation

September 15, 2023
Autores: Gael Le Lan, Varun Nagaraja, Ernie Chang, David Kant, Zhaoheng Ni, Yangyang Shi, Forrest Iandola, Vikas Chandra
cs.AI

Resumo

Na geração de música baseada em modelagem de linguagem, uma forma de onda gerada é representada por uma sequência de pilhas hierárquicas de tokens que podem ser decodificadas de maneira auto-regressiva ou em paralelo, dependendo dos padrões do codebook. Em particular, o achatamento dos codebooks representa a estratégia de decodificação de maior qualidade, embora seja notoriamente lenta. Para isso, propomos uma nova estratégia de decodificação no estilo "stack-and-delay" para melhorar a decodificação do padrão achatado, onde a velocidade de geração é quatro vezes mais rápida em comparação com a decodificação achatada tradicional. Isso aproxima o tempo de inferência ao da estratégia de decodificação com atraso e permite uma inferência mais rápida em GPU para tamanhos pequenos de lote. Com o mesmo orçamento de eficiência de inferência que o padrão de atraso, mostramos que a abordagem proposta tem um desempenho melhor em avaliações objetivas, quase fechando a lacuna de qualidade em relação ao padrão achatado. Os resultados são corroborados por avaliações subjetivas, que mostram que as amostras geradas pelo novo modelo são ligeiramente mais preferidas do que as amostras geradas pelo modelo concorrente, dados os mesmos prompts de texto.
English
In language modeling based music generation, a generated waveform is represented by a sequence of hierarchical token stacks that can be decoded either in an auto-regressive manner or in parallel, depending on the codebook patterns. In particular, flattening the codebooks represents the highest quality decoding strategy, while being notoriously slow. To this end, we propose a novel stack-and-delay style of decoding strategy to improve upon the flat pattern decoding where generation speed is four times faster as opposed to vanilla flat decoding. This brings the inference time close to that of the delay decoding strategy, and allows for faster inference on GPU for small batch sizes. For the same inference efficiency budget as the delay pattern, we show that the proposed approach performs better in objective evaluations, almost closing the gap with the flat pattern in terms of quality. The results are corroborated by subjective evaluations which show that samples generated by the new model are slightly more often preferred to samples generated by the competing model given the same text prompts.
PDF40February 8, 2026