ChatPaper.aiChatPaper

Naar een gezamenlijk taalmodel voor spraakeenheden en tekst

Toward Joint Language Modeling for Speech Units and Text

October 12, 2023
Auteurs: Ju-Chieh Chou, Chung-Ming Chien, Wei-Ning Hsu, Karen Livescu, Arun Babu, Alexis Conneau, Alexei Baevski, Michael Auli
cs.AI

Samenvatting

Spraak en tekst zijn twee belangrijke vormen van menselijke taal. De onderzoeksgemeenschap heeft zich jarenlang gericht op het omzetten van spraak naar tekst of vice versa. In het veld van taalmodelering is echter weinig aandacht besteed aan het gezamenlijk modelleren van beide. Gezien dit feit onderzoeken wij gezamenlijke taalmodelering voor spraakeenheden en tekst. Specifiek vergelijken we verschillende spraaktokenizers om continue spraaksignalen om te zetten in discrete eenheden en gebruiken we verschillende methoden om gemengde spraak-tekstdata te construeren. We introduceren automatische metrieken om te evalueren hoe goed het gezamenlijke taalmodel spraak en tekst mengt. We fine-tunen het taalmodel ook op downstream taken voor gesproken taalbegrip (SLU) met verschillende modaliteiten (spraak of tekst) en testen de prestaties om het leren van gedeelde representaties door het model te beoordelen. Onze resultaten tonen aan dat door het mengen van spraakeenheden en tekst met onze voorgestelde mengtechnieken, het gezamenlijke taalmodel verbetert ten opzichte van een baseline die alleen spraak gebruikt bij SLU-taken en zero-shot cross-modale overdraagbaarheid vertoont.
English
Speech and text are two major forms of human language. The research community has been focusing on mapping speech to text or vice versa for many years. However, in the field of language modeling, very little effort has been made to model them jointly. In light of this, we explore joint language modeling for speech units and text. Specifically, we compare different speech tokenizers to transform continuous speech signals into discrete units and use different methods to construct mixed speech-text data. We introduce automatic metrics to evaluate how well the joint LM mixes speech and text. We also fine-tune the LM on downstream spoken language understanding (SLU) tasks with different modalities (speech or text) and test its performance to assess the model's learning of shared representations. Our results show that by mixing speech units and text with our proposed mixing techniques, the joint LM improves over a speech-only baseline on SLU tasks and shows zero-shot cross-modal transferability.
PDF91February 17, 2026