DinoSR : Auto-distillation et clustering en ligne pour l'apprentissage auto-supervisé de représentations vocales

Résumé

Dans cet article, nous présentons l'auto-distillation et le clustering en ligne pour l'apprentissage auto-supervisé de représentations de la parole (DinoSR), qui combine la modélisation de langage masqué, l'auto-distillation et le clustering en ligne. Nous montrons que ces concepts se complètent mutuellement et aboutissent à un modèle puissant d'apprentissage de représentations pour la parole. DinoSR extrait d'abord des embeddings contextuels à partir de l'audio d'entrée à l'aide d'un réseau enseignant, puis applique un système de clustering en ligne sur ces embeddings pour produire un inventaire de phones découvert automatiquement, et enfin utilise les tokens discrétisés pour guider un réseau étudiant. Nous démontrons que DinoSR surpasse les performances précédentes de l'état de l'art dans plusieurs tâches en aval, et fournissons une analyse détaillée du modèle ainsi que des unités discrètes apprises. Le code source sera rendu disponible après la période d'anonymat.

English

In this paper, we introduce self-distillation and online clustering for self-supervised speech representation learning (DinoSR) which combines masked language modeling, self-distillation, and online clustering. We show that these concepts complement each other and result in a strong representation learning model for speech. DinoSR first extracts contextualized embeddings from the input audio with a teacher network, then runs an online clustering system on the embeddings to yield a machine-discovered phone inventory, and finally uses the discretized tokens to guide a student network. We show that DinoSR surpasses previous state-of-the-art performance in several downstream tasks, and provide a detailed analysis of the model and the learned discrete units. The source code will be made available after the anonymity period.

DinoSR : Auto-distillation et clustering en ligne pour l'apprentissage auto-supervisé de représentations vocales

DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning

Résumé

Support