ChatPaper.aiChatPaper

Dalla Scatola Nera alla Trasparenza: Migliorare la Valutazione Automatica dell'Interpretazione con l'AI Spiegabile nelle Aule Universitarie

From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

August 14, 2025
Autori: Zhaokun Jiang, Ziyin Zhang
cs.AI

Abstract

I recenti progressi nel machine learning hanno stimolato un crescente interesse verso la valutazione automatizzata della qualità dell'interpretazione. Tuttavia, la ricerca esistente presenta alcune lacune, tra cui un'analisi insufficiente della qualità dell'uso linguistico, un'efficacia di modellazione insoddisfacente dovuta alla scarsità e allo squilibrio dei dati, e una mancanza di sforzi per spiegare le previsioni dei modelli. Per colmare queste lacune, proponiamo un framework di modellazione multidimensionale che integra l'ingegneria delle feature, l'aumento dei dati e il machine learning spiegabile. Questo approccio privilegia la spiegabilità rispetto alle previsioni di tipo "scatola nera", utilizzando solo feature trasparenti e rilevanti per il costrutto e conducendo un'analisi basata sui valori di Shapley (SHAP). I nostri risultati dimostrano una forte performance predittiva su un nuovo dataset di interpretazione consecutiva inglese-cinese, identificando i punteggi BLEURT e CometKiwi come le feature predittive più forti per la fedeltà, le feature relative alle pause per la fluidità e le metriche di diversità fraseologica specifiche per il cinese per l'uso linguistico. In sintesi, ponendo particolare enfasi sulla spiegabilità, presentiamo un'alternativa scalabile, affidabile e trasparente alla tradizionale valutazione umana, facilitando la fornitura di feedback diagnostici dettagliati per gli apprendenti e supportando i vantaggi dell'apprendimento autoregolato non offerti dai punteggi automatizzati presi isolatamente.
English
Recent advancements in machine learning have spurred growing interests in automated interpreting quality assessment. Nevertheless, existing research suffers from insufficient examination of language use quality, unsatisfactory modeling effectiveness due to data scarcity and imbalance, and a lack of efforts to explain model predictions. To address these gaps, we propose a multi-dimensional modeling framework that integrates feature engineering, data augmentation, and explainable machine learning. This approach prioritizes explainability over ``black box'' predictions by utilizing only construct-relevant, transparent features and conducting Shapley Value (SHAP) analysis. Our results demonstrate strong predictive performance on a novel English-Chinese consecutive interpreting dataset, identifying BLEURT and CometKiwi scores to be the strongest predictive features for fidelity, pause-related features for fluency, and Chinese-specific phraseological diversity metrics for language use. Overall, by placing particular emphasis on explainability, we present a scalable, reliable, and transparent alternative to traditional human evaluation, facilitating the provision of detailed diagnostic feedback for learners and supporting self-regulated learning advantages not afforded by automated scores in isolation.
PDF32August 15, 2025