DinoSR: Auto-distilação e Agrupamento Online para Aprendizado Autossupervisionado de Representações de Fala
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning
May 17, 2023
Autores: Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass
cs.AI
Resumo
Neste artigo, apresentamos a auto-distilação e o agrupamento online para aprendizado de representação de fala auto-supervisionado (DinoSR), que combina modelagem de linguagem mascarada, auto-distilação e agrupamento online. Demonstramos que esses conceitos se complementam e resultam em um modelo robusto de aprendizado de representação para fala. O DinoSR primeiro extrai embeddings contextualizados do áudio de entrada usando uma rede professora, em seguida executa um sistema de agrupamento online sobre os embeddings para gerar um inventário de fonemas descoberto pela máquina e, finalmente, utiliza os tokens discretizados para orientar uma rede estudante. Mostramos que o DinoSR supera o desempenho de métodos anteriores de ponta em várias tarefas subsequentes e fornecemos uma análise detalhada do modelo e das unidades discretas aprendidas. O código-fonte será disponibilizado após o período de anonimato.
English
In this paper, we introduce self-distillation and online clustering for
self-supervised speech representation learning (DinoSR) which combines masked
language modeling, self-distillation, and online clustering. We show that these
concepts complement each other and result in a strong representation learning
model for speech. DinoSR first extracts contextualized embeddings from the
input audio with a teacher network, then runs an online clustering system on
the embeddings to yield a machine-discovered phone inventory, and finally uses
the discretized tokens to guide a student network. We show that DinoSR
surpasses previous state-of-the-art performance in several downstream tasks,
and provide a detailed analysis of the model and the learned discrete units.
The source code will be made available after the anonymity period.