ChatPaper.aiChatPaper

От "черного ящика" к прозрачности: улучшение автоматизированной оценки интерпретации с использованием объяснимого ИИ в университетских аудиториях

From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

August 14, 2025
Авторы: Zhaokun Jiang, Ziyin Zhang
cs.AI

Аннотация

Последние достижения в области машинного обучения стимулировали растущий интерес к автоматизированной оценке качества перевода. Тем не менее, существующие исследования страдают от недостаточного анализа качества использования языка, неудовлетворительной эффективности моделей из-за дефицита и дисбаланса данных, а также отсутствия усилий по объяснению предсказаний моделей. Для устранения этих пробелов мы предлагаем многомерную модель, которая интегрирует разработку признаков, увеличение данных и объяснимое машинное обучение. Этот подход делает акцент на объяснимости, а не на «черном ящике» предсказаний, используя только прозрачные признаки, связанные с конструктом, и проводя анализ значений Шепли (SHAP). Наши результаты демонстрируют высокую прогностическую производительность на новом наборе данных последовательного перевода с английского на китайский, выявляя, что оценки BLEURT и CometKiwi являются наиболее сильными предикторами точности, признаки, связанные с паузами, — беглости, а метрики фразеологического разнообразия, специфичные для китайского языка, — качества использования языка. В целом, уделяя особое внимание объяснимости, мы представляем масштабируемую, надежную и прозрачную альтернативу традиционной человеческой оценке, способствуя предоставлению детальной диагностической обратной связи для обучающихся и поддерживая преимущества саморегулируемого обучения, недоступные при использовании автоматизированных оценок в отдельности.
English
Recent advancements in machine learning have spurred growing interests in automated interpreting quality assessment. Nevertheless, existing research suffers from insufficient examination of language use quality, unsatisfactory modeling effectiveness due to data scarcity and imbalance, and a lack of efforts to explain model predictions. To address these gaps, we propose a multi-dimensional modeling framework that integrates feature engineering, data augmentation, and explainable machine learning. This approach prioritizes explainability over ``black box'' predictions by utilizing only construct-relevant, transparent features and conducting Shapley Value (SHAP) analysis. Our results demonstrate strong predictive performance on a novel English-Chinese consecutive interpreting dataset, identifying BLEURT and CometKiwi scores to be the strongest predictive features for fidelity, pause-related features for fluency, and Chinese-specific phraseological diversity metrics for language use. Overall, by placing particular emphasis on explainability, we present a scalable, reliable, and transparent alternative to traditional human evaluation, facilitating the provision of detailed diagnostic feedback for learners and supporting self-regulated learning advantages not afforded by automated scores in isolation.
PDF21August 15, 2025