ChatPaper.aiChatPaper

Escalando Transformadores para Codificación de Voz de Alta Calidad a Bajas Tasas de Bits

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

November 29, 2024
Autores: Julian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu
cs.AI

Resumen

La tokenización del habla con modelos neurales de códec de audio es una parte vital de los modernos flujos de trabajo de IA para la generación o comprensión del habla, ya sea de forma individual o en un contexto multimodal. Tradicionalmente, dichos modelos de tokenización se han centrado en arquitecturas de bajo recuento de parámetros que utilizan solo componentes con fuertes sesgos inductivos. En este trabajo mostramos que al escalar una arquitectura transformer con un gran recuento de parámetros para este problema, y aplicar un cuello de botella basado en Cuantificación Escalar Finita (FSQ) flexible, es posible alcanzar una calidad de habla de vanguardia a tasas de bits extremadamente bajas de 400 o 700 bits por segundo. Los modelos entrenados superan significativamente a los puntos de referencia existentes tanto en pruebas objetivas como subjetivas.
English
The tokenization of speech with neural audio codec models is a vital part of modern AI pipelines for the generation or understanding of speech, alone or in a multimodal context. Traditionally such tokenization models have concentrated on low parameter-count architectures using only components with strong inductive biases. In this work we show that by scaling a transformer architecture with large parameter count to this problem, and applying a flexible Finite Scalar Quantization (FSQ) based bottleneck, it is possible to reach state-of-the-art speech quality at extremely low bit-rates of 400 or 700 bits-per-second. The trained models strongly out-perform existing baselines in both objective and subjective tests.

Summary

AI-Generated Summary

PDF123December 2, 2024