ChatPaper.aiChatPaper

Whisper-GPT : un modèle de langue audio à grande représentation hybride

Whisper-GPT: A Hybrid Representation Audio Large Language Model

December 16, 2024
Auteurs: Prateek Verma
cs.AI

Résumé

Nous proposons WHISPER-GPT : un grand modèle de langage génératif (LLM) pour la parole et la musique qui nous permet de travailler simultanément avec des représentations audio continues et des jetons discrets dans le cadre d'une seule architecture. Il y a eu une énorme vague de modèles génératifs audio, de parole et de musique qui utilisent des jetons audio discrets dérivés d'algorithmes de compression neurale, par exemple ENCODEC. Cependant, l'un des principaux inconvénients de cette approche est la gestion de la longueur du contexte. Cela devient problématique pour une architecture générative haute fidélité si l'on doit tenir compte de tous les contenus audio à différentes fréquences pour la prédiction du jeton suivant. En combinant une représentation audio continue comme le spectrogramme et des jetons acoustiques discrets, nous conservons le meilleur des deux mondes : avoir toutes les informations nécessaires de l'audio à un instant précis dans un seul jeton, tout en permettant au LLM de prédire le jeton futur pour permettre l'échantillonnage et d'autres avantages que l'espace discret offre. Nous montrons comment notre architecture améliore la perplexité et les scores de log-vraisemblance négative pour la prédiction du jeton suivant par rapport à un LLM basé sur les jetons pour la parole et la musique.
English
We propose WHISPER-GPT: A generative large language model (LLM) for speech and music that allows us to work with continuous audio representations and discrete tokens simultaneously as part of a single architecture. There has been a huge surge in generative audio, speech, and music models that utilize discrete audio tokens derived from neural compression algorithms, e.g. ENCODEC. However, one of the major drawbacks of this approach is handling the context length. It blows up for high-fidelity generative architecture if one has to account for all the audio contents at various frequencies for the next token prediction. By combining continuous audio representation like the spectrogram and discrete acoustic tokens, we retain the best of both worlds: Have all the information needed from the audio at a specific time instance in a single token, yet allow LLM to predict the future token to allow for sampling and other benefits discrete space provides. We show how our architecture improves the perplexity and negative log-likelihood scores for the next token prediction compared to a token-based LLM for speech and music.

Summary

AI-Generated Summary

PDF42December 17, 2024