DinoSR: 自己蒸留とオンラインクラスタリングを用いた自己教師あり音声表現学習
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning
May 17, 2023
著者: Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass
cs.AI
要旨
本論文では、マスク言語モデリング、自己蒸留、オンラインクラスタリングを組み合わせた自己教師あり音声表現学習(DinoSR)のための自己蒸留とオンラインクラスタリングを紹介する。これらの概念が互いに補完し合い、強力な音声表現学習モデルを実現することを示す。DinoSRはまず、教師ネットワークを用いて入力音声から文脈化された埋め込みを抽出し、次にその埋め込みに対してオンラインクラスタリングシステムを実行して機械発見的な音素インベントリを生成し、最後に離散化されたトークンを用いて学生ネットワークをガイドする。DinoSRが複数の下流タスクにおいて従来の最先端性能を上回ることを示し、モデルと学習された離散ユニットの詳細な分析を提供する。ソースコードは匿名期間終了後に公開される予定である。
English
In this paper, we introduce self-distillation and online clustering for
self-supervised speech representation learning (DinoSR) which combines masked
language modeling, self-distillation, and online clustering. We show that these
concepts complement each other and result in a strong representation learning
model for speech. DinoSR first extracts contextualized embeddings from the
input audio with a teacher network, then runs an online clustering system on
the embeddings to yield a machine-discovered phone inventory, and finally uses
the discretized tokens to guide a student network. We show that DinoSR
surpasses previous state-of-the-art performance in several downstream tasks,
and provide a detailed analysis of the model and the learned discrete units.
The source code will be made available after the anonymity period.