Amélioration des représentations conjointes parole-texte sans alignement
Improving Joint Speech-Text Representations Without Alignment
August 11, 2023
Auteurs: Cal Peyser, Zhong Meng, Ke Hu, Rohit Prabhavalkar, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, Kyunghyun Cho
cs.AI
Résumé
L'année dernière a été marquée par des progrès impressionnants dans la génération d'images à partir de textes, reposant sur l'idée d'un espace de représentation intermodale où les domaines du texte et de l'image sont représentés conjointement. Dans le domaine de la reconnaissance automatique de la parole (ASR), cette idée a trouvé une application sous la forme d'encodeurs conjoints parole-texte, capables de s'adapter aux capacités des modèles à très grand nombre de paramètres grâce à un entraînement sur des données de parole et de texte non appariées. Bien que ces méthodes soient prometteuses, elles ont nécessité un traitement particulier du déséquilibre inhérent à la longueur des séquences entre la parole et le texte, que ce soit par des heuristiques de sur-échantillonnage ou par un modèle d'alignement explicite. Dans ce travail, nous apportons des preuves que les encodeurs conjoints parole-texte parviennent naturellement à des représentations cohérentes entre les modalités en ignorant la longueur des séquences, et nous soutenons que des fonctions de perte de cohérence pourraient tolérer les différences de longueur en supposant simplement le meilleur alignement. Nous montrons qu'une telle perte améliore le taux d'erreur mot (WER) en aval, aussi bien dans un système monolingue à grand nombre de paramètres que dans un système multilingue.
English
The last year has seen astonishing progress in text-prompted image generation
premised on the idea of a cross-modal representation space in which the text
and image domains are represented jointly. In ASR, this idea has found
application as joint speech-text encoders that can scale to the capacities of
very large parameter models by being trained on both unpaired speech and text.
While these methods show promise, they have required special treatment of the
sequence-length mismatch inherent in speech and text, either by up-sampling
heuristics or an explicit alignment model. In this work, we offer evidence that
joint speech-text encoders naturally achieve consistent representations across
modalities by disregarding sequence length, and argue that consistency losses
could forgive length differences and simply assume the best alignment. We show
that such a loss improves downstream WER in both a large-parameter monolingual
and multilingual system.