ブラックボックスから透明性へ:大学教室における説明可能なAIを用いた自動通訳評価の強化
From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms
August 14, 2025
著者: Zhaokun Jiang, Ziyin Zhang
cs.AI
要旨
機械学習の最近の進歩により、自動通訳品質評価への関心が高まっています。しかし、既存の研究では、言語使用品質の検討が不十分であること、データの不足と不均衡によるモデリング効果の低さ、そしてモデル予測の説明に取り組む努力の欠如といった課題が残されています。これらのギャップを埋めるため、我々は特徴量エンジニアリング、データ拡張、説明可能な機械学習を統合した多次元モデリングフレームワークを提案します。このアプローチでは、「ブラックボックス」予測ではなく説明可能性を優先し、構成に関連する透明性の高い特徴量のみを利用し、Shapley Value(SHAP)分析を実施します。我々の結果は、新たな英語-中国語逐次通訳データセットにおいて強力な予測性能を示し、忠実性に対する最も強力な予測特徴量としてBLEURTとCometKiwiスコアを、流暢性に対するポーズ関連の特徴量を、言語使用に対する中国語特有の語彙的多様性メトリクスを特定しました。全体として、説明可能性を特に重視することで、従来の人間による評価に代わるスケーラブルで信頼性が高く透明性のある代替手段を提示し、学習者に対する詳細な診断フィードバックの提供を容易にし、自動スコア単独では得られない自己調整学習の利点をサポートします。
English
Recent advancements in machine learning have spurred growing interests in
automated interpreting quality assessment. Nevertheless, existing research
suffers from insufficient examination of language use quality, unsatisfactory
modeling effectiveness due to data scarcity and imbalance, and a lack of
efforts to explain model predictions. To address these gaps, we propose a
multi-dimensional modeling framework that integrates feature engineering, data
augmentation, and explainable machine learning. This approach prioritizes
explainability over ``black box'' predictions by utilizing only
construct-relevant, transparent features and conducting Shapley Value (SHAP)
analysis. Our results demonstrate strong predictive performance on a novel
English-Chinese consecutive interpreting dataset, identifying BLEURT and
CometKiwi scores to be the strongest predictive features for fidelity,
pause-related features for fluency, and Chinese-specific phraseological
diversity metrics for language use. Overall, by placing particular emphasis on
explainability, we present a scalable, reliable, and transparent alternative to
traditional human evaluation, facilitating the provision of detailed diagnostic
feedback for learners and supporting self-regulated learning advantages not
afforded by automated scores in isolation.