Stack-and-Delay: новый шаблон кодбука для генерации музыки
Stack-and-Delay: a new codebook pattern for music generation
September 15, 2023
Авторы: Gael Le Lan, Varun Nagaraja, Ernie Chang, David Kant, Zhaoheng Ni, Yangyang Shi, Forrest Iandola, Vikas Chandra
cs.AI
Аннотация
В генерации музыки на основе языкового моделирования сгенерированный аудиосигнал представляется в виде последовательности иерархических стеков токенов, которые могут быть декодированы либо авторегрессивно, либо параллельно, в зависимости от структуры кодбуков. В частности, "уплощение" (flattening) кодбуков представляет собой стратегию декодирования наивысшего качества, однако она известна своей медлительностью. В связи с этим мы предлагаем новую стратегию декодирования в стиле "стек-и-задержка" (stack-and-delay), которая улучшает подход с использованием "уплощённого" паттерна, обеспечивая скорость генерации в четыре раза выше по сравнению с классическим "уплощённым" декодированием. Это приближает время вывода к показателям стратегии декодирования с задержкой и позволяет ускорить вывод на GPU для небольших размеров батчей. При одинаковом бюджете эффективности вывода, как у стратегии с задержкой, мы показываем, что предложенный подход демонстрирует лучшие результаты в объективных оценках, почти сокращая разрыв с "уплощённым" паттерном по качеству. Результаты подтверждаются субъективными оценками, которые показывают, что сэмплы, сгенерированные новой моделью, немного чаще предпочитаются сэмплам, созданным конкурирующей моделью, при одинаковых текстовых запросах.
English
In language modeling based music generation, a generated waveform is
represented by a sequence of hierarchical token stacks that can be decoded
either in an auto-regressive manner or in parallel, depending on the codebook
patterns. In particular, flattening the codebooks represents the highest
quality decoding strategy, while being notoriously slow. To this end, we
propose a novel stack-and-delay style of decoding strategy to improve upon the
flat pattern decoding where generation speed is four times faster as opposed to
vanilla flat decoding. This brings the inference time close to that of the
delay decoding strategy, and allows for faster inference on GPU for small batch
sizes. For the same inference efficiency budget as the delay pattern, we show
that the proposed approach performs better in objective evaluations, almost
closing the gap with the flat pattern in terms of quality. The results are
corroborated by subjective evaluations which show that samples generated by the
new model are slightly more often preferred to samples generated by the
competing model given the same text prompts.