ChatPaper.aiChatPaper

De la caja negra a la transparencia: Mejorando la evaluación automática de interpretación con IA explicable en las aulas universitarias

From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

August 14, 2025
Autores: Zhaokun Jiang, Ziyin Zhang
cs.AI

Resumen

Los recientes avances en el aprendizaje automático han impulsado un creciente interés en la evaluación automatizada de la calidad de la interpretación. Sin embargo, la investigación existente adolece de un examen insuficiente de la calidad del uso del lenguaje, una efectividad de modelado insatisfactoria debido a la escasez y el desequilibrio de datos, y una falta de esfuerzos para explicar las predicciones del modelo. Para abordar estas brechas, proponemos un marco de modelado multidimensional que integra la ingeniería de características, la ampliación de datos y el aprendizaje automático explicable. Este enfoque prioriza la explicabilidad sobre las predicciones de "caja negra" al utilizar únicamente características transparentes y relevantes para el constructo, y al realizar un análisis de valores de Shapley (SHAP). Nuestros resultados demuestran un fuerte rendimiento predictivo en un nuevo conjunto de datos de interpretación consecutiva inglés-chino, identificando que las puntuaciones BLEURT y CometKiwi son las características predictivas más fuertes para la fidelidad, las características relacionadas con las pausas para la fluidez, y las métricas de diversidad fraseológica específicas del chino para el uso del lenguaje. En general, al enfatizar particularmente la explicabilidad, presentamos una alternativa escalable, confiable y transparente a la evaluación humana tradicional, facilitando la provisión de retroalimentación diagnóstica detallada para los estudiantes y apoyando las ventajas del aprendizaje autorregulado que no ofrecen las puntuaciones automatizadas de forma aislada.
English
Recent advancements in machine learning have spurred growing interests in automated interpreting quality assessment. Nevertheless, existing research suffers from insufficient examination of language use quality, unsatisfactory modeling effectiveness due to data scarcity and imbalance, and a lack of efforts to explain model predictions. To address these gaps, we propose a multi-dimensional modeling framework that integrates feature engineering, data augmentation, and explainable machine learning. This approach prioritizes explainability over ``black box'' predictions by utilizing only construct-relevant, transparent features and conducting Shapley Value (SHAP) analysis. Our results demonstrate strong predictive performance on a novel English-Chinese consecutive interpreting dataset, identifying BLEURT and CometKiwi scores to be the strongest predictive features for fidelity, pause-related features for fluency, and Chinese-specific phraseological diversity metrics for language use. Overall, by placing particular emphasis on explainability, we present a scalable, reliable, and transparent alternative to traditional human evaluation, facilitating the provision of detailed diagnostic feedback for learners and supporting self-regulated learning advantages not afforded by automated scores in isolation.
PDF21August 15, 2025