HiKE : Cadre d'évaluation hiérarchique pour la reconnaissance de la parole en alternance codique coréen-anglais

Résumé

Malgré les avancées dans la reconnaissance automatique de la parole multilingue (ASR), l'alternance codique (CS), c'est-à-dire le mélange de langues au sein d'un énoncé courant dans le discours quotidien, reste un défi largement sous-exploré. Dans cet article, nous présentons HiKE : le benchmark hiérarchique d'alternance codique coréen-anglais, le premier cadre d'évaluation accessible mondialement pour l'alternance codique coréen-anglais, visant à fournir un moyen d'évaluation précise des modèles ASR multilingues et à stimuler la recherche dans ce domaine. Le cadre proposé comprend non seulement des données de CS naturelles et de haute qualité couvrant divers sujets, mais fournit également des étiquettes méticuleuses pour les emprunts lexicaux et un schéma d'étiquetage hiérarchique des niveaux de CS (mot, phrase et phrase), permettant ainsi une évaluation systématique de la capacité d'un modèle à gérer chaque niveau distinct d'alternance codique. À travers l'évaluation de divers modèles ASR multilingues et des expériences de fine-tuning, cet article démontre que bien que la plupart des modèles ASR multilingues rencontrent initialement des difficultés avec le CS-ASR, cette capacité peut être activée par un fine-tuning avec des données de CS. HiKE sera disponible à l'adresse https://github.com/ThetaOne-AI/HiKE.

English

Despite advances in multilingual automatic speech recognition (ASR), code-switching (CS), the mixing of languages within an utterance common in daily speech, remains a severely underexplored challenge. In this paper, we introduce HiKE: the Hierarchical Korean-English code-switching benchmark, the first globally accessible evaluation framework for Korean-English CS, aiming to provide a means for the precise evaluation of multilingual ASR models and to foster research in the field. The proposed framework not only consists of high-quality, natural CS data across various topics, but also provides meticulous loanword labels and a hierarchical CS-level labeling scheme (word, phrase, and sentence) that together enable a systematic evaluation of a model's ability to handle each distinct level of code-switching. Through evaluations of diverse multilingual ASR models and fine-tuning experiments, this paper demonstrates that while most multilingual ASR models initially struggle with CS-ASR, this capability can be enabled through fine-tuning with CS data. HiKE will be available at https://github.com/ThetaOne-AI/HiKE.