DinoSR : Auto-distillation et clustering en ligne pour l'apprentissage auto-supervisé de représentations vocales
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning
May 17, 2023
Auteurs: Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass
cs.AI
Résumé
Dans cet article, nous présentons l'auto-distillation et le clustering en ligne pour l'apprentissage auto-supervisé de représentations de la parole (DinoSR), qui combine la modélisation de langage masqué, l'auto-distillation et le clustering en ligne. Nous montrons que ces concepts se complètent mutuellement et aboutissent à un modèle puissant d'apprentissage de représentations pour la parole. DinoSR extrait d'abord des embeddings contextuels à partir de l'audio d'entrée à l'aide d'un réseau enseignant, puis applique un système de clustering en ligne sur ces embeddings pour produire un inventaire de phones découvert automatiquement, et enfin utilise les tokens discrétisés pour guider un réseau étudiant. Nous démontrons que DinoSR surpasse les performances précédentes de l'état de l'art dans plusieurs tâches en aval, et fournissons une analyse détaillée du modèle ainsi que des unités discrètes apprises. Le code source sera rendu disponible après la période d'anonymat.
English
In this paper, we introduce self-distillation and online clustering for
self-supervised speech representation learning (DinoSR) which combines masked
language modeling, self-distillation, and online clustering. We show that these
concepts complement each other and result in a strong representation learning
model for speech. DinoSR first extracts contextualized embeddings from the
input audio with a teacher network, then runs an online clustering system on
the embeddings to yield a machine-discovered phone inventory, and finally uses
the discretized tokens to guide a student network. We show that DinoSR
surpasses previous state-of-the-art performance in several downstream tasks,
and provide a detailed analysis of the model and the learned discrete units.
The source code will be made available after the anonymity period.