DinoSR: Auto-distillazione e Clustering Online per l'Apprendimento Autosupervisionato di Rappresentazioni Vocali
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning
May 17, 2023
Autori: Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass
cs.AI
Abstract
In questo articolo, introduciamo l'auto-distillazione e il clustering online per l'apprendimento auto-supervisionato di rappresentazioni del parlato (DinoSR), che combina modellazione del linguaggio mascherato, auto-distillazione e clustering online. Dimostriamo che questi concetti si complementano a vicenda e portano a un modello solido per l'apprendimento di rappresentazioni del parlato. DinoSR estrae prima degli embedding contestualizzati dall'audio di input utilizzando una rete insegnante, poi esegue un sistema di clustering online sugli embedding per ottenere un inventario di fonemi scoperto automaticamente, e infine utilizza i token discretizzati per guidare una rete studente. Mostriamo che DinoSR supera le precedenti prestazioni state-of-the-art in diverse attività downstream e forniamo un'analisi dettagliata del modello e delle unità discrete apprese. Il codice sorgente sarà reso disponibile dopo il periodo di anonimato.
English
In this paper, we introduce self-distillation and online clustering for
self-supervised speech representation learning (DinoSR) which combines masked
language modeling, self-distillation, and online clustering. We show that these
concepts complement each other and result in a strong representation learning
model for speech. DinoSR first extracts contextualized embeddings from the
input audio with a teacher network, then runs an online clustering system on
the embeddings to yield a machine-discovered phone inventory, and finally uses
the discretized tokens to guide a student network. We show that DinoSR
surpasses previous state-of-the-art performance in several downstream tasks,
and provide a detailed analysis of the model and the learned discrete units.
The source code will be made available after the anonymity period.