ChatPaper.aiChatPaper

Mise à l'échelle des transformateurs pour le codage vocal haute qualité à faible débit binaire

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

November 29, 2024
Auteurs: Julian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu
cs.AI

Résumé

La tokenisation de la parole avec des modèles de codec audio neuronaux est une partie essentielle des pipelines d'IA modernes pour la génération ou la compréhension de la parole, seule ou dans un contexte multimodal. Traditionnellement, de tels modèles de tokenisation se sont concentrés sur des architectures à faible nombre de paramètres n'utilisant que des composants avec de fortes biais inductifs. Dans ce travail, nous montrons qu'en mettant à l'échelle une architecture de transformateur avec un grand nombre de paramètres pour ce problème, et en appliquant un goulot d'étranglement basé sur une quantification scalaire finie (FSQ) flexible, il est possible d'atteindre une qualité de parole de pointe à des débits extrêmement bas de 400 ou 700 bits par seconde. Les modèles entraînés surpassent nettement les références existantes tant dans les tests objectifs que subjectifs.
English
The tokenization of speech with neural audio codec models is a vital part of modern AI pipelines for the generation or understanding of speech, alone or in a multimodal context. Traditionally such tokenization models have concentrated on low parameter-count architectures using only components with strong inductive biases. In this work we show that by scaling a transformer architecture with large parameter count to this problem, and applying a flexible Finite Scalar Quantization (FSQ) based bottleneck, it is possible to reach state-of-the-art speech quality at extremely low bit-rates of 400 or 700 bits-per-second. The trained models strongly out-perform existing baselines in both objective and subjective tests.

Summary

AI-Generated Summary

PDF123December 2, 2024