Hacia un Modelado de Lenguaje Conjunto para Unidades de Habla y Texto
Toward Joint Language Modeling for Speech Units and Text
October 12, 2023
Autores: Ju-Chieh Chou, Chung-Ming Chien, Wei-Ning Hsu, Karen Livescu, Arun Babu, Alexis Conneau, Alexei Baevski, Michael Auli
cs.AI
Resumen
El habla y el texto son dos formas principales del lenguaje humano. Durante muchos años, la comunidad investigadora se ha centrado en mapear el habla al texto o viceversa. Sin embargo, en el campo del modelado del lenguaje, se ha dedicado muy poco esfuerzo a modelarlos de manera conjunta. En este contexto, exploramos el modelado conjunto del lenguaje para unidades de habla y texto. Específicamente, comparamos diferentes tokenizadores de habla para transformar señales de habla continua en unidades discretas y utilizamos distintos métodos para construir datos mixtos de habla y texto. Introducimos métricas automáticas para evaluar qué tan bien el modelo de lenguaje (LM) conjunto integra el habla y el texto. También ajustamos el LM en tareas posteriores de comprensión del lenguaje hablado (SLU) con diferentes modalidades (habla o texto) y probamos su rendimiento para evaluar el aprendizaje de representaciones compartidas por el modelo. Nuestros resultados muestran que, al combinar unidades de habla y texto con nuestras técnicas de mezcla propuestas, el LM conjunto mejora respecto a un modelo basado únicamente en habla en tareas de SLU y demuestra transferibilidad cruzada entre modalidades de manera zero-shot.
English
Speech and text are two major forms of human language. The research community
has been focusing on mapping speech to text or vice versa for many years.
However, in the field of language modeling, very little effort has been made to
model them jointly. In light of this, we explore joint language modeling for
speech units and text. Specifically, we compare different speech tokenizers to
transform continuous speech signals into discrete units and use different
methods to construct mixed speech-text data. We introduce automatic metrics to
evaluate how well the joint LM mixes speech and text. We also fine-tune the LM
on downstream spoken language understanding (SLU) tasks with different
modalities (speech or text) and test its performance to assess the model's
learning of shared representations. Our results show that by mixing speech
units and text with our proposed mixing techniques, the joint LM improves over
a speech-only baseline on SLU tasks and shows zero-shot cross-modal
transferability.