Stack-and-Delay: een nieuw codeboekpatroon voor muziekgeneratie
Stack-and-Delay: a new codebook pattern for music generation
September 15, 2023
Auteurs: Gael Le Lan, Varun Nagaraja, Ernie Chang, David Kant, Zhaoheng Ni, Yangyang Shi, Forrest Iandola, Vikas Chandra
cs.AI
Samenvatting
Bij muziekgeneratie op basis van taalmodellering wordt een gegenereerde golfvorm weergegeven door een reeks hiërarchische tokenstapels die op een autoregressieve manier of parallel kunnen worden gedecodeerd, afhankelijk van de codeboekpatronen. In het bijzonder vertegenwoordigt het afvlakken van de codeboeken de hoogste kwaliteit decodeerstrategie, hoewel dit berucht traag is. Daarom stellen we een nieuwe stapel-en-vertraging decodeerstrategie voor om de vlakke patroondecodering te verbeteren, waarbij de generatiesnelheid vier keer sneller is in vergelijking met standaard vlakke decodering. Dit brengt de inferentietijd dicht bij die van de vertragingsdecodeerstrategie en maakt snellere inferentie op GPU mogelijk voor kleine batchgroottes. Binnen hetzelfde inferentie-efficiëntiebudget als het vertragingspatroon, laten we zien dat de voorgestelde aanpak beter presteert in objectieve evaluaties en bijna de kwaliteitskloof met het vlakke patroon dicht. De resultaten worden bevestigd door subjectieve evaluaties die aantonen dat samples gegenereerd door het nieuwe model iets vaker de voorkeur krijgen boven samples gegenereerd door het concurrerende model bij dezelfde tekstprompts.
English
In language modeling based music generation, a generated waveform is
represented by a sequence of hierarchical token stacks that can be decoded
either in an auto-regressive manner or in parallel, depending on the codebook
patterns. In particular, flattening the codebooks represents the highest
quality decoding strategy, while being notoriously slow. To this end, we
propose a novel stack-and-delay style of decoding strategy to improve upon the
flat pattern decoding where generation speed is four times faster as opposed to
vanilla flat decoding. This brings the inference time close to that of the
delay decoding strategy, and allows for faster inference on GPU for small batch
sizes. For the same inference efficiency budget as the delay pattern, we show
that the proposed approach performs better in objective evaluations, almost
closing the gap with the flat pattern in terms of quality. The results are
corroborated by subjective evaluations which show that samples generated by the
new model are slightly more often preferred to samples generated by the
competing model given the same text prompts.