ChatPaper.aiChatPaper

DinoSR: Auto-distilación y Clustering en Línea para el Aprendizaje Autosupervisado de Representaciones de Voz

DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning

May 17, 2023
Autores: Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass
cs.AI

Resumen

En este artículo, presentamos la auto-distilación y la agrupación en línea para el aprendizaje de representaciones de habla auto-supervisado (DinoSR), que combina el modelado de lenguaje enmascarado, la auto-distilación y la agrupación en línea. Demostramos que estos conceptos se complementan entre sí y dan como resultado un modelo sólido para el aprendizaje de representaciones de habla. DinoSR primero extrae incrustaciones contextualizadas del audio de entrada mediante una red maestra, luego ejecuta un sistema de agrupación en línea sobre las incrustaciones para generar un inventario de fonemas descubierto automáticamente, y finalmente utiliza los tokens discretizados para guiar una red estudiante. Mostramos que DinoSR supera el rendimiento previo del estado del arte en varias tareas posteriores, y proporcionamos un análisis detallado del modelo y de las unidades discretas aprendidas. El código fuente estará disponible después del período de anonimato.
English
In this paper, we introduce self-distillation and online clustering for self-supervised speech representation learning (DinoSR) which combines masked language modeling, self-distillation, and online clustering. We show that these concepts complement each other and result in a strong representation learning model for speech. DinoSR first extracts contextualized embeddings from the input audio with a teacher network, then runs an online clustering system on the embeddings to yield a machine-discovered phone inventory, and finally uses the discretized tokens to guide a student network. We show that DinoSR surpasses previous state-of-the-art performance in several downstream tasks, and provide a detailed analysis of the model and the learned discrete units. The source code will be made available after the anonymity period.
PDF30December 15, 2024