Stack-and-Delay: un nuevo patrón de codebook para la generación de música
Stack-and-Delay: a new codebook pattern for music generation
September 15, 2023
Autores: Gael Le Lan, Varun Nagaraja, Ernie Chang, David Kant, Zhaoheng Ni, Yangyang Shi, Forrest Iandola, Vikas Chandra
cs.AI
Resumen
En la generación de música basada en modelado de lenguaje, una forma de onda generada se representa mediante una secuencia de pilas jerárquicas de tokens que pueden decodificarse de manera autorregresiva o en paralelo, dependiendo de los patrones del codebook. En particular, aplanar los codebooks representa la estrategia de decodificación de mayor calidad, aunque es notoriamente lenta. Con este fin, proponemos una novedosa estrategia de decodificación de tipo "apilar y retrasar" para mejorar la decodificación de patrones planos, donde la velocidad de generación es cuatro veces más rápida en comparación con la decodificación plana convencional. Esto acerca el tiempo de inferencia al de la estrategia de decodificación con retraso y permite una inferencia más rápida en GPU para tamaños de lote pequeños. Con el mismo presupuesto de eficiencia de inferencia que el patrón de retraso, demostramos que el enfoque propuesto tiene un mejor desempeño en evaluaciones objetivas, casi cerrando la brecha con el patrón plano en términos de calidad. Los resultados se corroboran con evaluaciones subjetivas que muestran que las muestras generadas por el nuevo modelo son ligeramente más preferidas que las generadas por el modelo competidor, dados los mismos indicadores de texto.
English
In language modeling based music generation, a generated waveform is
represented by a sequence of hierarchical token stacks that can be decoded
either in an auto-regressive manner or in parallel, depending on the codebook
patterns. In particular, flattening the codebooks represents the highest
quality decoding strategy, while being notoriously slow. To this end, we
propose a novel stack-and-delay style of decoding strategy to improve upon the
flat pattern decoding where generation speed is four times faster as opposed to
vanilla flat decoding. This brings the inference time close to that of the
delay decoding strategy, and allows for faster inference on GPU for small batch
sizes. For the same inference efficiency budget as the delay pattern, we show
that the proposed approach performs better in objective evaluations, almost
closing the gap with the flat pattern in terms of quality. The results are
corroborated by subjective evaluations which show that samples generated by the
new model are slightly more often preferred to samples generated by the
competing model given the same text prompts.