Amélioration des représentations conjointes parole-texte sans alignement

Résumé

L'année dernière a été marquée par des progrès impressionnants dans la génération d'images à partir de textes, reposant sur l'idée d'un espace de représentation intermodale où les domaines du texte et de l'image sont représentés conjointement. Dans le domaine de la reconnaissance automatique de la parole (ASR), cette idée a trouvé une application sous la forme d'encodeurs conjoints parole-texte, capables de s'adapter aux capacités des modèles à très grand nombre de paramètres grâce à un entraînement sur des données de parole et de texte non appariées. Bien que ces méthodes soient prometteuses, elles ont nécessité un traitement particulier du déséquilibre inhérent à la longueur des séquences entre la parole et le texte, que ce soit par des heuristiques de sur-échantillonnage ou par un modèle d'alignement explicite. Dans ce travail, nous apportons des preuves que les encodeurs conjoints parole-texte parviennent naturellement à des représentations cohérentes entre les modalités en ignorant la longueur des séquences, et nous soutenons que des fonctions de perte de cohérence pourraient tolérer les différences de longueur en supposant simplement le meilleur alignement. Nous montrons qu'une telle perte améliore le taux d'erreur mot (WER) en aval, aussi bien dans un système monolingue à grand nombre de paramètres que dans un système multilingue.

English

The last year has seen astonishing progress in text-prompted image generation premised on the idea of a cross-modal representation space in which the text and image domains are represented jointly. In ASR, this idea has found application as joint speech-text encoders that can scale to the capacities of very large parameter models by being trained on both unpaired speech and text. While these methods show promise, they have required special treatment of the sequence-length mismatch inherent in speech and text, either by up-sampling heuristics or an explicit alignment model. In this work, we offer evidence that joint speech-text encoders naturally achieve consistent representations across modalities by disregarding sequence length, and argue that consistency losses could forgive length differences and simply assume the best alignment. We show that such a loss improves downstream WER in both a large-parameter monolingual and multilingual system.

Amélioration des représentations conjointes parole-texte sans alignement

Improving Joint Speech-Text Representations Without Alignment

Résumé

Support