Piccoli Modelli Linguistici per l'Estrazione di Informazioni Cliniche con Preservazione della Privacy nelle Lingue a Risorse Limitate
Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages
February 24, 2026
Autori: Mohammadreza Ghaffarzadeh-Esfahani, Nahid Yousefian, Ebrahim Heidari-Farsani, Ali Akbar Omidvarian, Sepehr Ghahraei, Atena Farangi, AmirBahador Boroumand
cs.AI
Abstract
L'estrazione di informazioni cliniche da trascrizioni mediche in lingue a bassa risorsa rimane una sfida significativa nell'elaborazione del linguaggio naturale (NLP) sanitario. Questo studio valuta una pipeline in due fasi che combina Aya-expanse-8B come modello di traduzione dal persiano all'inglese con cinque piccoli modelli linguistici (SLM) open-source — Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct e Gemma-3-1B-it — per l'estrazione binaria di 13 caratteristiche cliniche da 1.221 trascrizioni persiane anonimate raccolte in un call center di cure palliative oncologiche. Utilizzando una strategia di prompt a "few-shot" senza addestramento fine, i modelli sono stati valutati in base all'F1-score mediato macroscopicamente, al coefficiente di correlazione di Matthews (MCC), alla sensibilità e alla specificità per tener conto dello squilibrio delle classi. Qwen2.5-7B-Instruct ha ottenuto le prestazioni complessive più elevate (F1 macro mediano: 0,899; MCC: 0,797), mentre Gemma-3-1B-it ha mostrato i risultati più deboli. I modelli più grandi (7B-8B parametri) hanno costantemente superato le controparti più piccole in sensibilità e MCC. Un'analisi bilingue di Aya-expanse-8B ha rivelato che la traduzione delle trascrizioni persiane in inglese migliorava la sensibilità, riduceva gli output mancanti e aumentava le metriche robuste allo squilibrio delle classi, sebbene a scapito di una leggermente inferiore specificità e precisione. I risultati a livello di caratteristica hanno mostrato un'estrazione affidabile dei sintomi fisiologici nella maggior parte dei modelli, mentre i disturbi psicologici, le richieste amministrative e le caratteristiche somatiche complesse sono rimaste difficili da estrarre. Questi risultati stabiliscono un progetto pratico e privacy-preserving per l'implementazione di SLM open-source in contesti clinici multilingue di NLP con infrastrutture e risorse di annotazione limitate, e evidenziano l'importanza di ottimizzare congiuntamente la scala del modello e la strategia della lingua di input per applicazioni sanitarie sensibili.
English
Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.