ChatPaper.aiChatPaper

블랙박스에서 투명성으로: 대학 강의실에서 설명 가능한 AI를 활용한 자동 통역 평가 강화

From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

August 14, 2025
저자: Zhaokun Jiang, Ziyin Zhang
cs.AI

초록

최근 머신러닝의 발전으로 자동 통역 품질 평가에 대한 관심이 높아지고 있습니다. 그러나 기존 연구는 언어 사용 품질에 대한 충분한 검토 부족, 데이터 부족과 불균형으로 인한 모델링 효과의 미흡, 그리고 모델 예측을 설명하려는 노력의 부재 등의 문제를 안고 있습니다. 이러한 문제를 해결하기 위해, 우리는 특징 공학, 데이터 증강, 설명 가능한 머신러닝을 통합한 다차원 모델링 프레임워크를 제안합니다. 이 접근법은 "블랙박스" 예측보다 설명 가능성을 우선시하며, 구성과 관련된 투명한 특징만을 활용하고 Shapley Value(SHAP) 분석을 수행합니다. 우리의 결과는 새로운 영어-중국어 연속 통역 데이터셋에서 강력한 예측 성능을 보여주며, 충실도(fidelity)에 대한 BLEURT 및 CometKiwi 점수, 유창성(fluency)에 대한 일시정지 관련 특징, 그리고 언어 사용에 대한 중국어 특정 구문 다양성 지표가 가장 강력한 예측 특징임을 확인했습니다. 전반적으로, 설명 가능성에 특별히 중점을 둠으로써, 우리는 전통적인 인간 평가에 대한 확장 가능하고 신뢰할 수 있으며 투명한 대안을 제시하며, 학습자에게 상세한 진단 피드백을 제공하고 자율 학습의 이점을 지원하는 데 기여합니다. 이는 단순히 자동화된 점수만으로는 제공할 수 없는 장점입니다.
English
Recent advancements in machine learning have spurred growing interests in automated interpreting quality assessment. Nevertheless, existing research suffers from insufficient examination of language use quality, unsatisfactory modeling effectiveness due to data scarcity and imbalance, and a lack of efforts to explain model predictions. To address these gaps, we propose a multi-dimensional modeling framework that integrates feature engineering, data augmentation, and explainable machine learning. This approach prioritizes explainability over ``black box'' predictions by utilizing only construct-relevant, transparent features and conducting Shapley Value (SHAP) analysis. Our results demonstrate strong predictive performance on a novel English-Chinese consecutive interpreting dataset, identifying BLEURT and CometKiwi scores to be the strongest predictive features for fidelity, pause-related features for fluency, and Chinese-specific phraseological diversity metrics for language use. Overall, by placing particular emphasis on explainability, we present a scalable, reliable, and transparent alternative to traditional human evaluation, facilitating the provision of detailed diagnostic feedback for learners and supporting self-regulated learning advantages not afforded by automated scores in isolation.
PDF21August 15, 2025