ChatPaper.aiChatPaper

Von der Black Box zur Transparenz: Verbesserung der automatisierten Dolmetschbewertung durch erklärbare KI in Hochschulklassenzimmern

From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

August 14, 2025
papers.authors: Zhaokun Jiang, Ziyin Zhang
cs.AI

papers.abstract

Jüngste Fortschritte im Bereich des maschinellen Lernens haben ein wachsendes Interesse an der automatisierten Bewertung von Dolmetschqualität geweckt. Dennoch leidet die bestehende Forschung unter einer unzureichenden Untersuchung der Sprachverwendungsqualität, unbefriedigender Modellierungseffektivität aufgrund von Datenknappheit und -ungleichgewicht sowie einem Mangel an Bemühungen, Modellvorhersagen zu erklären. Um diese Lücken zu schließen, schlagen wir ein mehrdimensionales Modellierungsframework vor, das Feature-Engineering, Datenaugmentierung und erklärbares maschinelles Lernen integriert. Dieser Ansatz priorisiert Erklärbarkeit gegenüber „Black-Box“-Vorhersagen, indem ausschließlich konstruktrelevante, transparente Merkmale verwendet und eine Shapley-Wert (SHAP)-Analyse durchgeführt wird. Unsere Ergebnisse zeigen eine starke Vorhersageleistung auf einem neuartigen Englisch-Chinesisch-Konsekutivdolmetsch-Datensatz, wobei BLEURT- und CometKiwi-Scores als die stärksten prädiktiven Merkmale für die Treue, pausenbezogene Merkmale für die Flüssigkeit und chinaspezifische phraseologische Diversitätsmetriken für die Sprachverwendung identifiziert wurden. Insgesamt präsentieren wir durch besondere Betonung der Erklärbarkeit eine skalierbare, zuverlässige und transparente Alternative zur traditionellen menschlichen Bewertung, die die Bereitstellung detaillierter diagnostischer Rückmeldungen für Lernende erleichtert und Vorteile des selbstregulierten Lernens unterstützt, die durch automatisierte Bewertungen allein nicht geboten werden.
English
Recent advancements in machine learning have spurred growing interests in automated interpreting quality assessment. Nevertheless, existing research suffers from insufficient examination of language use quality, unsatisfactory modeling effectiveness due to data scarcity and imbalance, and a lack of efforts to explain model predictions. To address these gaps, we propose a multi-dimensional modeling framework that integrates feature engineering, data augmentation, and explainable machine learning. This approach prioritizes explainability over ``black box'' predictions by utilizing only construct-relevant, transparent features and conducting Shapley Value (SHAP) analysis. Our results demonstrate strong predictive performance on a novel English-Chinese consecutive interpreting dataset, identifying BLEURT and CometKiwi scores to be the strongest predictive features for fidelity, pause-related features for fluency, and Chinese-specific phraseological diversity metrics for language use. Overall, by placing particular emphasis on explainability, we present a scalable, reliable, and transparent alternative to traditional human evaluation, facilitating the provision of detailed diagnostic feedback for learners and supporting self-regulated learning advantages not afforded by automated scores in isolation.
PDF21August 15, 2025