Mejora de representaciones conjuntas de habla-texto sin alineación

Resumen

El último año ha sido testigo de un progreso asombroso en la generación de imágenes basadas en texto, fundamentado en la idea de un espacio de representación multimodal en el que los dominios de texto e imagen se representan de manera conjunta. En el reconocimiento automático del habla (ASR), esta idea ha encontrado aplicación en codificadores conjuntos de habla y texto que pueden escalar a las capacidades de modelos con un número muy grande de parámetros al ser entrenados tanto con habla como con texto no emparejados. Aunque estos métodos muestran potencial, han requerido un tratamiento especial del desajuste inherente en la longitud de secuencias entre el habla y el texto, ya sea mediante heurísticas de sobremuestreo o un modelo de alineación explícito. En este trabajo, presentamos evidencia de que los codificadores conjuntos de habla y texto logran naturalmente representaciones consistentes entre modalidades al ignorar la longitud de las secuencias, y argumentamos que las funciones de pérdida de consistencia podrían perdonar las diferencias de longitud y simplemente asumir la mejor alineación. Demostramos que dicha función de pérdida mejora la tasa de error de palabras (WER) en sistemas tanto monolingües como multilingües con un gran número de parámetros.

English

The last year has seen astonishing progress in text-prompted image generation premised on the idea of a cross-modal representation space in which the text and image domains are represented jointly. In ASR, this idea has found application as joint speech-text encoders that can scale to the capacities of very large parameter models by being trained on both unpaired speech and text. While these methods show promise, they have required special treatment of the sequence-length mismatch inherent in speech and text, either by up-sampling heuristics or an explicit alignment model. In this work, we offer evidence that joint speech-text encoders naturally achieve consistent representations across modalities by disregarding sequence length, and argue that consistency losses could forgive length differences and simply assume the best alignment. We show that such a loss improves downstream WER in both a large-parameter monolingual and multilingual system.

Mejora de representaciones conjuntas de habla-texto sin alineación

Improving Joint Speech-Text Representations Without Alignment

Resumen

Support