ChatPaper.aiChatPaper

DinoSR: Самообучение и онлайн-кластеризация для самоконтролируемого обучения речевых представлений

DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning

May 17, 2023
Авторы: Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass
cs.AI

Аннотация

В данной статье мы представляем метод самообучения и онлайн-кластеризации для самообучения речевых представлений (DinoSR), который объединяет маскированное языковое моделирование, самообучение и онлайн-кластеризацию. Мы показываем, что эти концепции дополняют друг друга и приводят к созданию мощной модели обучения представлений для речи. DinoSR сначала извлекает контекстуализированные эмбеддинги из входного аудио с помощью учительской сети, затем применяет систему онлайн-кластеризации к этим эмбеддингам для получения машинно-обнаруженного инвентаря фонем и, наконец, использует дискретизированные токены для обучения ученической сети. Мы демонстрируем, что DinoSR превосходит предыдущие достижения в нескольких последующих задачах, а также предоставляем детальный анализ модели и изученных дискретных единиц. Исходный код будет опубликован после завершения периода анонимности.
English
In this paper, we introduce self-distillation and online clustering for self-supervised speech representation learning (DinoSR) which combines masked language modeling, self-distillation, and online clustering. We show that these concepts complement each other and result in a strong representation learning model for speech. DinoSR first extracts contextualized embeddings from the input audio with a teacher network, then runs an online clustering system on the embeddings to yield a machine-discovered phone inventory, and finally uses the discretized tokens to guide a student network. We show that DinoSR surpasses previous state-of-the-art performance in several downstream tasks, and provide a detailed analysis of the model and the learned discrete units. The source code will be made available after the anonymity period.
PDF30December 15, 2024