Diseño de Interfaz para Modelos de Habla Autosupervisados

Resumen

Los modelos de habla auto-supervisados (SSL, por sus siglas en inglés) se han adoptado ampliamente recientemente para muchas tareas de procesamiento de habla. El patrón de uso general consiste en emplear modelos SSL como extractores de características y luego entrenar una cabeza de predicción específica para resolver una tarea concreta. Sin embargo, se ha demostrado que diferentes capas de los modelos SSL capturan distintos tipos de información, y los métodos para combinarlos no han sido bien estudiados. Con este fin, extendemos el marco general de utilización de modelos SSL proponiendo una interfaz que conecta el modelo upstream (ascendente) y el downstream (descendente). Bajo esta perspectiva, la técnica dominante de combinar características mediante una suma ponderada por capas puede considerarse como una interfaz específica. Proponemos varios diseños alternativos de interfaz y demostramos que la interfaz de suma ponderada no es óptima para muchas tareas. En particular, mostramos que una interfaz convolucional cuya profundidad escala logarítmicamente con la profundidad del modelo upstream supera consistentemente a muchos otros diseños de interfaz.

English

Self-supervised speech (SSL) models have recently become widely adopted for many downstream speech processing tasks. The general usage pattern is to employ SSL models as feature extractors, and then train a downstream prediction head to solve a specific task. However, different layers of SSL models have been shown to capture different types of information, and the methods of combining them are not well studied. To this end, we extend the general framework for SSL model utilization by proposing the interface that connects the upstream and downstream. Under this view, the dominant technique of combining features via a layerwise weighted sum can be regarded as a specific interface. We propose several alternative interface designs and demonstrate that the weighted sum interface is suboptimal for many tasks. In particular, we show that a convolutional interface whose depth scales logarithmically with the depth of the upstream model consistently outperforms many other interface designs.

Diseño de Interfaz para Modelos de Habla Autosupervisados

Interface Design for Self-Supervised Speech Models

Resumen

Support