HiKE : Cadre d'évaluation hiérarchique pour la reconnaissance de la parole en alternance codique coréen-anglais
HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition
September 29, 2025
papers.authors: Gio Paik, Yongbeom Kim, Soungmin Lee, Sangmin Ahn, Chanwoo Kim
cs.AI
papers.abstract
Malgré les avancées dans la reconnaissance automatique de la parole multilingue (ASR), l'alternance codique (CS), c'est-à-dire le mélange de langues au sein d'un énoncé courant dans le discours quotidien, reste un défi largement sous-exploré. Dans cet article, nous présentons HiKE : le benchmark hiérarchique d'alternance codique coréen-anglais, le premier cadre d'évaluation accessible mondialement pour l'alternance codique coréen-anglais, visant à fournir un moyen d'évaluation précise des modèles ASR multilingues et à stimuler la recherche dans ce domaine. Le cadre proposé comprend non seulement des données de CS naturelles et de haute qualité couvrant divers sujets, mais fournit également des étiquettes méticuleuses pour les emprunts lexicaux et un schéma d'étiquetage hiérarchique des niveaux de CS (mot, phrase et phrase), permettant ainsi une évaluation systématique de la capacité d'un modèle à gérer chaque niveau distinct d'alternance codique. À travers l'évaluation de divers modèles ASR multilingues et des expériences de fine-tuning, cet article démontre que bien que la plupart des modèles ASR multilingues rencontrent initialement des difficultés avec le CS-ASR, cette capacité peut être activée par un fine-tuning avec des données de CS. HiKE sera disponible à l'adresse https://github.com/ThetaOne-AI/HiKE.
English
Despite advances in multilingual automatic speech recognition (ASR),
code-switching (CS), the mixing of languages within an utterance common in
daily speech, remains a severely underexplored challenge. In this paper, we
introduce HiKE: the Hierarchical Korean-English code-switching benchmark, the
first globally accessible evaluation framework for Korean-English CS, aiming to
provide a means for the precise evaluation of multilingual ASR models and to
foster research in the field. The proposed framework not only consists of
high-quality, natural CS data across various topics, but also provides
meticulous loanword labels and a hierarchical CS-level labeling scheme (word,
phrase, and sentence) that together enable a systematic evaluation of a model's
ability to handle each distinct level of code-switching. Through evaluations of
diverse multilingual ASR models and fine-tuning experiments, this paper
demonstrates that while most multilingual ASR models initially struggle with
CS-ASR, this capability can be enabled through fine-tuning with CS data. HiKE
will be available at https://github.com/ThetaOne-AI/HiKE.