Het schalen van Transformers voor spraakcodering met een lage bitsnelheid en hoge kwaliteit
Scaling Transformers for Low-Bitrate High-Quality Speech Coding
November 29, 2024
Auteurs: Julian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu
cs.AI
Samenvatting
De tokenisatie van spraak met neurale audiocodec-modellen is een essentieel onderdeel van moderne AI-pijplijnen voor de generatie of het begrip van spraak, alleen of in een multimodale context. Traditioneel hebben dergelijke tokenisatiemodellen zich gericht op architecturen met een laag parameteraantal met alleen componenten met sterke inductieve vooroordelen. In dit werk laten we zien dat door het schalen van een transformer-architectuur met een groot parameteraantal voor dit probleem, en het toepassen van een flexibele bottleneck gebaseerd op eindige scalaire kwantisatie (FSQ), het mogelijk is om state-of-the-art spraakkwaliteit te bereiken bij extreem lage bitsnelheden van 400 of 700 bits per seconde. De getrainde modellen presteren aanzienlijk beter dan bestaande baselines in zowel objectieve als subjectieve tests.
English
The tokenization of speech with neural audio codec models is a vital part of
modern AI pipelines for the generation or understanding of speech, alone or in
a multimodal context. Traditionally such tokenization models have concentrated
on low parameter-count architectures using only components with strong
inductive biases. In this work we show that by scaling a transformer
architecture with large parameter count to this problem, and applying a
flexible Finite Scalar Quantization (FSQ) based bottleneck, it is possible to
reach state-of-the-art speech quality at extremely low bit-rates of 400 or
700 bits-per-second. The trained models strongly out-perform existing
baselines in both objective and subjective tests.