ChatPaper.aiChatPaper

De la boîte noire à la transparence : Améliorer l'évaluation automatisée de l'interprétation grâce à l'IA explicable dans les salles de classe universitaires

From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

August 14, 2025
papers.authors: Zhaokun Jiang, Ziyin Zhang
cs.AI

papers.abstract

Les récents progrès en apprentissage automatique ont suscité un intérêt croissant pour l'évaluation automatisée de la qualité en interprétation. Cependant, les recherches existantes souffrent d'un examen insuffisant de la qualité de l'usage linguistique, d'une efficacité de modélisation insatisfaisante due à la rareté et au déséquilibre des données, et d'un manque d'efforts pour expliquer les prédictions des modèles. Pour combler ces lacunes, nous proposons un cadre de modélisation multidimensionnel qui intègre l'ingénierie des caractéristiques, l'augmentation des données et l'apprentissage automatique explicable. Cette approche privilégie l'explicabilité par rapport aux prédictions de type « boîte noire » en utilisant uniquement des caractéristiques transparentes et pertinentes pour la construction, et en réalisant une analyse des valeurs de Shapley (SHAP). Nos résultats démontrent une forte performance prédictive sur un nouveau jeu de données d'interprétation consécutive anglais-chinois, identifiant les scores BLEURT et CometKiwi comme les caractéristiques prédictives les plus fortes pour la fidélité, les caractéristiques liées aux pauses pour la fluidité, et les métriques de diversité phraséologique spécifiques au chinois pour l'usage linguistique. Globalement, en mettant un accent particulier sur l'explicabilité, nous présentons une alternative évolutive, fiable et transparente à l'évaluation humaine traditionnelle, facilitant la fourniture de retours diagnostiques détaillés pour les apprenants et soutenant les avantages de l'apprentissage autorégulé que les scores automatisés seuls ne peuvent offrir.
English
Recent advancements in machine learning have spurred growing interests in automated interpreting quality assessment. Nevertheless, existing research suffers from insufficient examination of language use quality, unsatisfactory modeling effectiveness due to data scarcity and imbalance, and a lack of efforts to explain model predictions. To address these gaps, we propose a multi-dimensional modeling framework that integrates feature engineering, data augmentation, and explainable machine learning. This approach prioritizes explainability over ``black box'' predictions by utilizing only construct-relevant, transparent features and conducting Shapley Value (SHAP) analysis. Our results demonstrate strong predictive performance on a novel English-Chinese consecutive interpreting dataset, identifying BLEURT and CometKiwi scores to be the strongest predictive features for fidelity, pause-related features for fluency, and Chinese-specific phraseological diversity metrics for language use. Overall, by placing particular emphasis on explainability, we present a scalable, reliable, and transparent alternative to traditional human evaluation, facilitating the provision of detailed diagnostic feedback for learners and supporting self-regulated learning advantages not afforded by automated scores in isolation.
PDF21August 15, 2025