DinoSR: Zelfdistillatie en online clustering voor zelfgesuperviseerd leren van spraakrepresentaties
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning
May 17, 2023
Auteurs: Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass
cs.AI
Samenvatting
In dit artikel introduceren we zelfdistillatie en online clustering voor zelfgesuperviseerd leren van spraakrepresentaties (DinoSR), dat gemaskeerd taalmodeleren, zelfdistillatie en online clustering combineert. We laten zien dat deze concepten elkaar aanvullen en resulteren in een krachtig model voor het leren van representaties voor spraak. DinoSR extraheert eerst contextuele embeddings uit de invoeraudio met een leraarnetwerk, voert vervolgens een online clusteringsysteem uit op de embeddings om een door de machine ontdekt telefoonbestand te verkrijgen, en gebruikt ten slotte de gediscretiseerde tokens om een studentennetwerk te begeleiden. We tonen aan dat DinoSR de prestaties van eerdere state-of-the-art modellen overtreft in verschillende downstream taken, en bieden een gedetailleerde analyse van het model en de geleerde discrete eenheden. De broncode zal beschikbaar worden gesteld na de anonimiteitsperiode.
English
In this paper, we introduce self-distillation and online clustering for
self-supervised speech representation learning (DinoSR) which combines masked
language modeling, self-distillation, and online clustering. We show that these
concepts complement each other and result in a strong representation learning
model for speech. DinoSR first extracts contextualized embeddings from the
input audio with a teacher network, then runs an online clustering system on
the embeddings to yield a machine-discovered phone inventory, and finally uses
the discretized tokens to guide a student network. We show that DinoSR
surpasses previous state-of-the-art performance in several downstream tasks,
and provide a detailed analysis of the model and the learned discrete units.
The source code will be made available after the anonymity period.