DinoSR: Selbst-Distillation und Online-Clustering für selbstüberwachtes Sprachrepräsentationslernen
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning
May 17, 2023
Autoren: Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass
cs.AI
Zusammenfassung
In diesem Artikel stellen wir Selbst-Distillation und Online-Clustering für das selbstüberwachte Lernen von Sprachrepräsentationen (DinoSR) vor, das maskiertes Sprachmodellieren, Selbst-Distillation und Online-Clustering kombiniert. Wir zeigen, dass sich diese Konzepte gegenseitig ergänzen und zu einem leistungsstarken Modell für das Erlernen von Sprachrepräsentationen führen. DinoSR extrahiert zunächst kontextualisierte Einbettungen aus dem Eingangs-Audio mit einem Lehrer-Netzwerk, führt dann ein Online-Clustering-System auf den Einbettungen durch, um ein maschinell entdecktes Phon-Inventar zu erzeugen, und verwendet schließlich die diskretisierten Token, um ein Schüler-Netzwerk zu leiten. Wir demonstrieren, dass DinoSR die bisherige Spitzenleistung in mehreren nachgelagerten Aufgaben übertrifft, und liefern eine detaillierte Analyse des Modells sowie der gelernten diskreten Einheiten. Der Quellcode wird nach der Anonymitätsphase verfügbar gemacht.
English
In this paper, we introduce self-distillation and online clustering for
self-supervised speech representation learning (DinoSR) which combines masked
language modeling, self-distillation, and online clustering. We show that these
concepts complement each other and result in a strong representation learning
model for speech. DinoSR first extracts contextualized embeddings from the
input audio with a teacher network, then runs an online clustering system on
the embeddings to yield a machine-discovered phone inventory, and finally uses
the discretized tokens to guide a student network. We show that DinoSR
surpasses previous state-of-the-art performance in several downstream tasks,
and provide a detailed analysis of the model and the learned discrete units.
The source code will be made available after the anonymity period.