Vers une modélisation linguistique conjointe pour les unités de parole et le texte
Toward Joint Language Modeling for Speech Units and Text
October 12, 2023
Auteurs: Ju-Chieh Chou, Chung-Ming Chien, Wei-Ning Hsu, Karen Livescu, Arun Babu, Alexis Conneau, Alexei Baevski, Michael Auli
cs.AI
Résumé
La parole et le texte sont deux formes majeures du langage humain. La communauté de recherche s'est concentrée pendant de nombreuses années sur la conversion de la parole en texte ou inversement. Cependant, dans le domaine de la modélisation du langage, très peu d'efforts ont été consacrés à les modéliser conjointement. Dans cette optique, nous explorons la modélisation conjointe du langage pour les unités de parole et le texte. Plus précisément, nous comparons différents tokenizers de parole pour transformer les signaux vocaux continus en unités discrètes et utilisons diverses méthodes pour construire des données mixtes parole-texte. Nous introduisons des métriques automatiques pour évaluer dans quelle mesure le modèle de langage conjoint mélange efficacement la parole et le texte. Nous affinons également le modèle sur des tâches de compréhension du langage parlé (SLU) en aval avec différentes modalités (parole ou texte) et testons ses performances pour évaluer l'apprentissage de représentations partagées par le modèle. Nos résultats montrent qu'en mélangeant les unités de parole et le texte avec nos techniques de mélange proposées, le modèle de langage conjoint surpasse un modèle de référence basé uniquement sur la parole dans les tâches SLU et démontre une transférabilité intermodale en zero-shot.
English
Speech and text are two major forms of human language. The research community
has been focusing on mapping speech to text or vice versa for many years.
However, in the field of language modeling, very little effort has been made to
model them jointly. In light of this, we explore joint language modeling for
speech units and text. Specifically, we compare different speech tokenizers to
transform continuous speech signals into discrete units and use different
methods to construct mixed speech-text data. We introduce automatic metrics to
evaluate how well the joint LM mixes speech and text. We also fine-tune the LM
on downstream spoken language understanding (SLU) tasks with different
modalities (speech or text) and test its performance to assess the model's
learning of shared representations. Our results show that by mixing speech
units and text with our proposed mixing techniques, the joint LM improves over
a speech-only baseline on SLU tasks and shows zero-shot cross-modal
transferability.