Dimensionamento de Transformadores para Codificação de Fala de Alta Qualidade com Baixa Taxa de Bits
Scaling Transformers for Low-Bitrate High-Quality Speech Coding
November 29, 2024
Autores: Julian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu
cs.AI
Resumo
A tokenização de fala com modelos neurais de codec de áudio é uma parte vital das modernas tubulações de IA para a geração ou compreensão da fala, sozinha ou em um contexto multimodal. Tradicionalmente, tais modelos de tokenização têm se concentrado em arquiteturas de baixa contagem de parâmetros usando apenas componentes com fortes viés indutivos. Neste trabalho, mostramos que escalando uma arquitetura de transformer com grande contagem de parâmetros para este problema e aplicando um gargalo baseado em Quantização Escalar Finita (FSQ) flexível, é possível alcançar qualidade de fala de última geração a taxas extremamente baixas de bits de 400 ou 700 por segundo. Os modelos treinados superam significativamente as baselines existentes em testes objetivos e subjetivos.
English
The tokenization of speech with neural audio codec models is a vital part of
modern AI pipelines for the generation or understanding of speech, alone or in
a multimodal context. Traditionally such tokenization models have concentrated
on low parameter-count architectures using only components with strong
inductive biases. In this work we show that by scaling a transformer
architecture with large parameter count to this problem, and applying a
flexible Finite Scalar Quantization (FSQ) based bottleneck, it is possible to
reach state-of-the-art speech quality at extremely low bit-rates of 400 or
700 bits-per-second. The trained models strongly out-perform existing
baselines in both objective and subjective tests.Summary
AI-Generated Summary