스택 앤 딜레이(Stack-and-Delay): 음악 생성을 위한 새로운 코드북 패턴
Stack-and-Delay: a new codebook pattern for music generation
September 15, 2023
저자: Gael Le Lan, Varun Nagaraja, Ernie Chang, David Kant, Zhaoheng Ni, Yangyang Shi, Forrest Iandola, Vikas Chandra
cs.AI
초록
언어 모델 기반 음악 생성에서, 생성된 웨이브폼은 코드북 패턴에 따라 자기회귀 방식 또는 병렬 방식으로 디코딩될 수 있는 계층적 토큰 스택의 시퀀스로 표현됩니다. 특히, 코드북을 평면화(flattening)하는 것은 가장 높은 품질의 디코딩 전략을 나타내지만, 속도가 매우 느리다는 것으로 알려져 있습니다. 이를 위해, 우리는 평면 패턴 디코딩을 개선하기 위해 새로운 스택-앤-딜레이(stack-and-delay) 스타일의 디코딩 전략을 제안합니다. 이 전략은 기존의 평면 디코딩에 비해 생성 속도가 네 배 빠르며, 딜레이 디코딩 전략에 가까운 추론 시간을 달성하고, 작은 배치 크기에서 GPU 상에서 더 빠른 추론을 가능하게 합니다. 딜레이 패턴과 동일한 추론 효율성 예산 내에서, 제안된 접근 방식은 객관적 평가에서 더 나은 성능을 보이며, 품질 측면에서 평면 패턴과의 격차를 거의 메웁니다. 이러한 결과는 주관적 평가에서도 확인되었으며, 동일한 텍스트 프롬프트가 주어졌을 때 새로운 모델이 생성한 샘플이 경쟁 모델이 생성한 샘플보다 약간 더 선호되는 것으로 나타났습니다.
English
In language modeling based music generation, a generated waveform is
represented by a sequence of hierarchical token stacks that can be decoded
either in an auto-regressive manner or in parallel, depending on the codebook
patterns. In particular, flattening the codebooks represents the highest
quality decoding strategy, while being notoriously slow. To this end, we
propose a novel stack-and-delay style of decoding strategy to improve upon the
flat pattern decoding where generation speed is four times faster as opposed to
vanilla flat decoding. This brings the inference time close to that of the
delay decoding strategy, and allows for faster inference on GPU for small batch
sizes. For the same inference efficiency budget as the delay pattern, we show
that the proposed approach performs better in objective evaluations, almost
closing the gap with the flat pattern in terms of quality. The results are
corroborated by subjective evaluations which show that samples generated by the
new model are slightly more often preferred to samples generated by the
competing model given the same text prompts.