Auf dem Weg zu einem gemeinsamen Sprachmodell für Spracheinheiten und Text
Toward Joint Language Modeling for Speech Units and Text
October 12, 2023
Autoren: Ju-Chieh Chou, Chung-Ming Chien, Wei-Ning Hsu, Karen Livescu, Arun Babu, Alexis Conneau, Alexei Baevski, Michael Auli
cs.AI
Zusammenfassung
Sprache und Text sind zwei wesentliche Formen menschlicher Kommunikation. Die Forschungsgemeinschaft beschäftigt sich seit vielen Jahren damit, Sprache in Text oder umgekehrt abzubilden. Im Bereich der Sprachmodellierung wurde jedoch bisher nur wenig Aufwand betrieben, um beide gemeinsam zu modellieren. Vor diesem Hintergrund untersuchen wir die gemeinsame Sprachmodellierung für Spracheinheiten und Text. Konkret vergleichen wir verschiedene Sprach-Tokenizer, um kontinuierliche Sprachsignale in diskrete Einheiten umzuwandeln, und verwenden unterschiedliche Methoden, um gemischte Sprach-Text-Daten zu erstellen. Wir führen automatische Metriken ein, um zu bewerten, wie gut das gemeinsame Sprachmodell Sprache und Text integriert. Außerdem feintunen wir das Sprachmodell für nachgelagerte Aufgaben des gesprochenen Sprachverständnisses (Spoken Language Understanding, SLU) mit verschiedenen Modalitäten (Sprache oder Text) und testen seine Leistung, um das Erlernen gemeinsamer Repräsentationen zu bewerten. Unsere Ergebnisse zeigen, dass durch das Mischen von Spracheinheiten und Text mit unseren vorgeschlagenen Mischtechniken das gemeinsame Sprachmodell im Vergleich zu einem reinen Sprach-Baseline bei SLU-Aufgaben verbessert wird und eine Null-Shot-Übertragbarkeit zwischen den Modalitäten aufweist.
English
Speech and text are two major forms of human language. The research community
has been focusing on mapping speech to text or vice versa for many years.
However, in the field of language modeling, very little effort has been made to
model them jointly. In light of this, we explore joint language modeling for
speech units and text. Specifically, we compare different speech tokenizers to
transform continuous speech signals into discrete units and use different
methods to construct mixed speech-text data. We introduce automatic metrics to
evaluate how well the joint LM mixes speech and text. We also fine-tune the LM
on downstream spoken language understanding (SLU) tasks with different
modalities (speech or text) and test its performance to assess the model's
learning of shared representations. Our results show that by mixing speech
units and text with our proposed mixing techniques, the joint LM improves over
a speech-only baseline on SLU tasks and shows zero-shot cross-modal
transferability.