Mejora de representaciones conjuntas de habla-texto sin alineación
Improving Joint Speech-Text Representations Without Alignment
August 11, 2023
Autores: Cal Peyser, Zhong Meng, Ke Hu, Rohit Prabhavalkar, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, Kyunghyun Cho
cs.AI
Resumen
El último año ha sido testigo de un progreso asombroso en la generación de imágenes basadas en texto, fundamentado en la idea de un espacio de representación multimodal en el que los dominios de texto e imagen se representan de manera conjunta. En el reconocimiento automático del habla (ASR), esta idea ha encontrado aplicación en codificadores conjuntos de habla y texto que pueden escalar a las capacidades de modelos con un número muy grande de parámetros al ser entrenados tanto con habla como con texto no emparejados. Aunque estos métodos muestran potencial, han requerido un tratamiento especial del desajuste inherente en la longitud de secuencias entre el habla y el texto, ya sea mediante heurísticas de sobremuestreo o un modelo de alineación explícito. En este trabajo, presentamos evidencia de que los codificadores conjuntos de habla y texto logran naturalmente representaciones consistentes entre modalidades al ignorar la longitud de las secuencias, y argumentamos que las funciones de pérdida de consistencia podrían perdonar las diferencias de longitud y simplemente asumir la mejor alineación. Demostramos que dicha función de pérdida mejora la tasa de error de palabras (WER) en sistemas tanto monolingües como multilingües con un gran número de parámetros.
English
The last year has seen astonishing progress in text-prompted image generation
premised on the idea of a cross-modal representation space in which the text
and image domains are represented jointly. In ASR, this idea has found
application as joint speech-text encoders that can scale to the capacities of
very large parameter models by being trained on both unpaired speech and text.
While these methods show promise, they have required special treatment of the
sequence-length mismatch inherent in speech and text, either by up-sampling
heuristics or an explicit alignment model. In this work, we offer evidence that
joint speech-text encoders naturally achieve consistent representations across
modalities by disregarding sequence length, and argue that consistency losses
could forgive length differences and simply assume the best alignment. We show
that such a loss improves downstream WER in both a large-parameter monolingual
and multilingual system.