Dimensionamento de Transformadores para Codificação de Fala de Alta Qualidade com Baixa Taxa de Bits

Resumo

A tokenização de fala com modelos neurais de codec de áudio é uma parte vital das modernas tubulações de IA para a geração ou compreensão da fala, sozinha ou em um contexto multimodal. Tradicionalmente, tais modelos de tokenização têm se concentrado em arquiteturas de baixa contagem de parâmetros usando apenas componentes com fortes viés indutivos. Neste trabalho, mostramos que escalando uma arquitetura de transformer com grande contagem de parâmetros para este problema e aplicando um gargalo baseado em Quantização Escalar Finita (FSQ) flexível, é possível alcançar qualidade de fala de última geração a taxas extremamente baixas de bits de 400 ou 700 por segundo. Os modelos treinados superam significativamente as baselines existentes em testes objetivos e subjetivos.

English

The tokenization of speech with neural audio codec models is a vital part of modern AI pipelines for the generation or understanding of speech, alone or in a multimodal context. Traditionally such tokenization models have concentrated on low parameter-count architectures using only components with strong inductive biases. In this work we show that by scaling a transformer architecture with large parameter count to this problem, and applying a flexible Finite Scalar Quantization (FSQ) based bottleneck, it is possible to reach state-of-the-art speech quality at extremely low bit-rates of 400 or 700 bits-per-second. The trained models strongly out-perform existing baselines in both objective and subjective tests.

Dimensionamento de Transformadores para Codificação de Fala de Alta Qualidade com Baixa Taxa de Bits

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Resumo

Support