ChatPaper.aiChatPaper

Van Black Box naar Transparantie: Het Verbeteren van Geautomatiseerde Interpretatiebeoordeling met Uitlegbare AI in Collegeklaslokalen

From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

August 14, 2025
Auteurs: Zhaokun Jiang, Ziyin Zhang
cs.AI

Samenvatting

Recente vooruitgang in machine learning heeft een groeiende interesse gewekt in geautomatiseerde kwaliteitsbeoordeling van tolken. Desalniettemin lijdt bestaand onderzoek aan onvoldoende onderzoek naar de kwaliteit van taalgebruik, onbevredigende modelleereffectiviteit door schaarste en onbalans van data, en een gebrek aan inspanningen om modelvoorspellingen te verklaren. Om deze tekortkomingen aan te pakken, stellen we een multidimensionaal modelleerkader voor dat feature engineering, data-augmentatie en uitlegbare machine learning integreert. Deze benadering geeft prioriteit aan uitlegbaarheid boven "black box"-voorspellingen door alleen construct-relevante, transparante features te gebruiken en Shapley Value (SHAP)-analyse uit te voeren. Onze resultaten tonen sterke voorspellende prestaties op een nieuwe Engels-Chinese consecutieve tolkdataset, waarbij BLEURT- en CometKiwi-scores worden geïdentificeerd als de sterkste voorspellende features voor getrouwheid, pauze-gerelateerde features voor vloeiendheid, en Chinees-specifieke fraseologische diversiteitsmetrieken voor taalgebruik. Over het algemeen presenteren we, door bijzondere nadruk te leggen op uitlegbaarheid, een schaalbare, betrouwbare en transparante alternatief voor traditionele menselijke evaluatie, wat de verstrekking van gedetailleerde diagnostische feedback voor leerlingen vergemakkelijkt en zelfgereguleerde leervoordelen ondersteunt die niet worden geboden door geautomatiseerde scores op zichzelf.
English
Recent advancements in machine learning have spurred growing interests in automated interpreting quality assessment. Nevertheless, existing research suffers from insufficient examination of language use quality, unsatisfactory modeling effectiveness due to data scarcity and imbalance, and a lack of efforts to explain model predictions. To address these gaps, we propose a multi-dimensional modeling framework that integrates feature engineering, data augmentation, and explainable machine learning. This approach prioritizes explainability over ``black box'' predictions by utilizing only construct-relevant, transparent features and conducting Shapley Value (SHAP) analysis. Our results demonstrate strong predictive performance on a novel English-Chinese consecutive interpreting dataset, identifying BLEURT and CometKiwi scores to be the strongest predictive features for fidelity, pause-related features for fluency, and Chinese-specific phraseological diversity metrics for language use. Overall, by placing particular emphasis on explainability, we present a scalable, reliable, and transparent alternative to traditional human evaluation, facilitating the provision of detailed diagnostic feedback for learners and supporting self-regulated learning advantages not afforded by automated scores in isolation.
PDF32August 15, 2025