低リソース言語におけるプライバシー保護型臨床情報抽出のための軽量言語モデル
Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages
February 24, 2026
著者: Mohammadreza Ghaffarzadeh-Esfahani, Nahid Yousefian, Ebrahim Heidari-Farsani, Ali Akbar Omidvarian, Sepehr Ghahraei, Atena Farangi, AmirBahador Boroumand
cs.AI
要旨
低リソース言語の医療記録から臨床情報を抽出することは、ヘルスケア自然言語処理(NLP)における重要な課題である。本研究では、ペルシア語から英語への翻訳モデルとしてAya-expanse-8Bを、13の臨床特徴の二値抽出にはQwen2.5-7B-Instruct、Llama-3.1-8B-Instruct、Llama-3.2-3B-Instruct、Qwen2.5-1.5B-Instruct、Gemma-3-1B-itの5つのオープンソース小型言語モデル(SLM)を組み合わせた2段階パイプラインを評価する。がん緩和ケアコールセンターで収集された匿名化ペルシア語記録1,221件に対し、ファインチューニングを行わない数発プロンプト戦略を用い、クラス不均衡を考慮してマクロ平均F1スコア、マシューズ相関係数(MCC)、感度、特異度でモデルを評価した。Qwen2.5-7B-Instructが最高の総合性能(中央値マクロF1: 0.899; MCC: 0.797)を示し、Gemma-3-1B-itが最も低い結果となった。大規模モデル(7B–8Bパラメータ)は、感度とMCCにおいて一貫して小規模モデルを上回った。Aya-expanse-8Bの二言語分析により、ペルシア語記録を英語翻訳することで感度が向上し、出力欠落が減少、クラス不均衡に頑健な指標が改善される一方、特異度と精度がわずかに低下することが明らかになった。特徴レベルでは生理的症状の抽出が大半のモデルで安定したのに対し、心理的愁訴、事務的依頼、複雑な身体的特徴の抽出手法は課題として残った。これらの知見は、インフラと注釈リソースが限られた多言語臨床NLP環境において、プライバシー保護型のオープンソースSLM導入に向けた実用的な青図を提供するとともに、敏感なヘルスケア応用においてモデル規模と入力言語戦略を共同で最適化する重要性を浮き彫りにしている。
English
Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.