Diseño de Interfaz para Modelos de Habla Autosupervisados
Interface Design for Self-Supervised Speech Models
June 18, 2024
Autores: Yi-Jen Shih, David Harwath
cs.AI
Resumen
Los modelos de habla auto-supervisados (SSL, por sus siglas en inglés) se han adoptado ampliamente recientemente para muchas tareas de procesamiento de habla. El patrón de uso general consiste en emplear modelos SSL como extractores de características y luego entrenar una cabeza de predicción específica para resolver una tarea concreta. Sin embargo, se ha demostrado que diferentes capas de los modelos SSL capturan distintos tipos de información, y los métodos para combinarlos no han sido bien estudiados. Con este fin, extendemos el marco general de utilización de modelos SSL proponiendo una interfaz que conecta el modelo upstream (ascendente) y el downstream (descendente). Bajo esta perspectiva, la técnica dominante de combinar características mediante una suma ponderada por capas puede considerarse como una interfaz específica. Proponemos varios diseños alternativos de interfaz y demostramos que la interfaz de suma ponderada no es óptima para muchas tareas. En particular, mostramos que una interfaz convolucional cuya profundidad escala logarítmicamente con la profundidad del modelo upstream supera consistentemente a muchos otros diseños de interfaz.
English
Self-supervised speech (SSL) models have recently become widely adopted for
many downstream speech processing tasks. The general usage pattern is to employ
SSL models as feature extractors, and then train a downstream prediction head
to solve a specific task. However, different layers of SSL models have been
shown to capture different types of information, and the methods of combining
them are not well studied. To this end, we extend the general framework for SSL
model utilization by proposing the interface that connects the upstream and
downstream. Under this view, the dominant technique of combining features via a
layerwise weighted sum can be regarded as a specific interface. We propose
several alternative interface designs and demonstrate that the weighted sum
interface is suboptimal for many tasks. In particular, we show that a
convolutional interface whose depth scales logarithmically with the depth of
the upstream model consistently outperforms many other interface designs.Summary
AI-Generated Summary