HiKE: Marco de Evaluación Jerárquico para el Reconocimiento de Habla con Cambio de Código Coreano-Inglés
HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition
September 29, 2025
Autores: Gio Paik, Yongbeom Kim, Soungmin Lee, Sangmin Ahn, Chanwoo Kim
cs.AI
Resumen
A pesar de los avances en el reconocimiento automático del habla multilingüe (ASR, por sus siglas en inglés), el cambio de código (CS), que consiste en la mezcla de idiomas dentro de una misma expresión y es común en el habla cotidiana, sigue siendo un desafío gravemente subexplorado. En este artículo, presentamos HiKE: el punto de referencia jerárquico para el cambio de código coreano-inglés, el primer marco de evaluación accesible a nivel global para el CS coreano-inglés, con el objetivo de proporcionar un medio para la evaluación precisa de modelos de ASR multilingües y fomentar la investigación en este campo. El marco propuesto no solo incluye datos de CS naturales y de alta calidad sobre diversos temas, sino que también ofrece etiquetas detalladas de préstamos léxicos y un esquema de etiquetado jerárquico de niveles de CS (palabra, frase y oración), lo que permite una evaluación sistemática de la capacidad de un modelo para manejar cada nivel distinto de cambio de código. A través de la evaluación de diversos modelos de ASR multilingües y experimentos de ajuste fino, este artículo demuestra que, aunque la mayoría de los modelos de ASR multilingües inicialmente tienen dificultades con el CS-ASR, esta capacidad puede habilitarse mediante el ajuste fino con datos de CS. HiKE estará disponible en https://github.com/ThetaOne-AI/HiKE.
English
Despite advances in multilingual automatic speech recognition (ASR),
code-switching (CS), the mixing of languages within an utterance common in
daily speech, remains a severely underexplored challenge. In this paper, we
introduce HiKE: the Hierarchical Korean-English code-switching benchmark, the
first globally accessible evaluation framework for Korean-English CS, aiming to
provide a means for the precise evaluation of multilingual ASR models and to
foster research in the field. The proposed framework not only consists of
high-quality, natural CS data across various topics, but also provides
meticulous loanword labels and a hierarchical CS-level labeling scheme (word,
phrase, and sentence) that together enable a systematic evaluation of a model's
ability to handle each distinct level of code-switching. Through evaluations of
diverse multilingual ASR models and fine-tuning experiments, this paper
demonstrates that while most multilingual ASR models initially struggle with
CS-ASR, this capability can be enabled through fine-tuning with CS data. HiKE
will be available at https://github.com/ThetaOne-AI/HiKE.