저자원 언어를 위한 개인정보 보호 임상 정보 추출을 위한 소형 언어 모델
Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages
February 24, 2026
저자: Mohammadreza Ghaffarzadeh-Esfahani, Nahid Yousefian, Ebrahim Heidari-Farsani, Ali Akbar Omidvarian, Sepehr Ghahraei, Atena Farangi, AmirBahador Boroumand
cs.AI
초록
의료 기록에서 임상 정보를 추출하는 것은 저자원 언어 환경에서 자연어 처리(NLP)의 중요한 과제로 남아 있습니다. 본 연구는 페르시아어-영어 번역 모델로 Aya-expanse-8B를 사용하고, 암 완화 의료 콜센터에서 수집된 1,221개의 익명화된 페르시아어 기록으로부터 13가지 임상 특징을 이진 추출하기 위해 5개의 오픈소스 소형 언어 모델(SLM) — Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, Gemma-3-1B-it — 을 결합한 2단계 파이프라인을 평가합니다. 미세 조정 없이 소수 샷 프롬프팅 전략을 사용하여, 클래스 불균형을 고려한 매크로 평균 F1-점수, 매튜스 상관 계수(MCC), 민감도 및 특이도로 모델 성능을 평가했습니다. Qwen2.5-7B-Instruct가 가장 높은 전반적 성능(중앙값 매크로-F1: 0.899; MCC: 0.797)을 보인 반면, Gemma-3-1B-it은 가장 낮은 성능을 나타냈습니다. 대형 모델(7B–8B 매개변수)은 민감도와 MCC에서 일관되게 소형 모델보다 우수한 성능을 보였습니다. Aya-expanse-8B에 대한 이중 언어 분석 결과, 페르시아어 기록을 영어로 번역하면 민감도가 향상되고 누락된 출력이 줄어들며 클래스 불균형에 강건한 지표가 향상되었지만, 특이도와 정밀도가 약간 낮아지는 비용이 발생하는 것으로 나타났습니다. 특징 수준의 결과에서는 대부분의 모델에서 생리학적 증상을 안정적으로 추출한 반면, 심리적 불편감, 행정적 요청, 복잡한 신체적 특징은 여전히 추출이 어려운 것으로 나타났습니다. 이러한 결과는 제한된 인프라와 주석 리소스를 가진 다국어 임상 NLP 환경에서 오픈소스 SLM을 배치하기 위한 실용적이고 개인정보를 보호하는 청사진을 제시하며, 민감한 의료 응용 프로그램을 위해 모델 규모와 입력 언어 전략을 함께 최적화하는 것의 중요성을 강조합니다.
English
Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.