Kleine Taalmodellen voor Privacy-beschermende Extractie van Klinische Informatie in Talen met Beperkte Middelen
Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages
February 24, 2026
Auteurs: Mohammadreza Ghaffarzadeh-Esfahani, Nahid Yousefian, Ebrahim Heidari-Farsani, Ali Akbar Omidvarian, Sepehr Ghahraei, Atena Farangi, AmirBahador Boroumand
cs.AI
Samenvatting
Het extraheren van klinische informatie uit medische transcripties in talen met weinig bronnen blijft een grote uitdaging binnen natuurlijke taalverwerking (NTV) in de gezondheidszorg. Deze studie evalueert een pijplijn in twee stappen die Aya-expanse-8B combineert als een Perzisch-Engels vertaalmodel met vijf open-source kleine taalmodellen (KTM's) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct en Gemma-3-1B-it -- voor de binaire extractie van 13 klinische kenmerken uit 1.221 geanonimiseerde Perzische transcripties, verzameld bij een callcenter voor palliatieve kankerzorg. Met een few-shot promptingstrategie zonder fine-tuning werden de modellen beoordeeld op macro-gemiddelde F1-score, Matthews Correlatiecoëfficiënt (MCC), sensitiviteit en specificiteit om rekening te houden met klasse-onbalans. Qwen2.5-7B-Instruct behaalde de hoogste algehele prestatie (mediane macro-F1: 0,899; MCC: 0,797), terwijl Gemma-3-1B-it de zwakste resultaten liet zien. Grotere modellen (7B–8B parameters) presteerden consistent beter dan kleinere tegenhangers op sensitiviteit en MCC. Een tweetalige analyse van Aya-expanse-8B toonde aan dat het vertalen van Perzische transcripties naar het Engels de sensitiviteit verbeterde, ontbrekende outputs verminderde en metrieken die robuust zijn tegen klasse-onbalans verhoogde, zij het ten koste van een licht lagere specificiteit en precisie. Resultaten op kenmerkniveau lieten een betrouwbare extractie van fysiologische symptomen zien bij de meeste modellen, terwijl psychologische klachten, administratieve verzoeken en complexe somatische kenmerken uitdagend bleven. Deze bevindingen leggen een praktische, privacy-beschermende blauwdruk voor de inzet van open-source KTM's in meertalige klinische NTV-omgevingen met beperkte infrastructuur en annotatieressources, en benadrukken het belang van het gezamenlijk optimaliseren van modelschaal en invoertaalstrategie voor gevoelige gezondheidstoepassingen.
English
Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.