Piccoli Modelli Linguistici per l'Estrazione di Informazioni Cliniche con Preservazione della Privacy nelle Lingue a Risorse Limitate

Abstract

L'estrazione di informazioni cliniche da trascrizioni mediche in lingue a bassa risorsa rimane una sfida significativa nell'elaborazione del linguaggio naturale (NLP) sanitario. Questo studio valuta una pipeline in due fasi che combina Aya-expanse-8B come modello di traduzione dal persiano all'inglese con cinque piccoli modelli linguistici (SLM) open-source — Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct e Gemma-3-1B-it — per l'estrazione binaria di 13 caratteristiche cliniche da 1.221 trascrizioni persiane anonimate raccolte in un call center di cure palliative oncologiche. Utilizzando una strategia di prompt a "few-shot" senza addestramento fine, i modelli sono stati valutati in base all'F1-score mediato macroscopicamente, al coefficiente di correlazione di Matthews (MCC), alla sensibilità e alla specificità per tener conto dello squilibrio delle classi. Qwen2.5-7B-Instruct ha ottenuto le prestazioni complessive più elevate (F1 macro mediano: 0,899; MCC: 0,797), mentre Gemma-3-1B-it ha mostrato i risultati più deboli. I modelli più grandi (7B-8B parametri) hanno costantemente superato le controparti più piccole in sensibilità e MCC. Un'analisi bilingue di Aya-expanse-8B ha rivelato che la traduzione delle trascrizioni persiane in inglese migliorava la sensibilità, riduceva gli output mancanti e aumentava le metriche robuste allo squilibrio delle classi, sebbene a scapito di una leggermente inferiore specificità e precisione. I risultati a livello di caratteristica hanno mostrato un'estrazione affidabile dei sintomi fisiologici nella maggior parte dei modelli, mentre i disturbi psicologici, le richieste amministrative e le caratteristiche somatiche complesse sono rimaste difficili da estrarre. Questi risultati stabiliscono un progetto pratico e privacy-preserving per l'implementazione di SLM open-source in contesti clinici multilingue di NLP con infrastrutture e risorse di annotazione limitate, e evidenziano l'importanza di ottimizzare congiuntamente la scala del modello e la strategia della lingua di input per applicazioni sanitarie sensibili.

English

Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.

Piccoli Modelli Linguistici per l'Estrazione di Informazioni Cliniche con Preservazione della Privacy nelle Lingue a Risorse Limitate

Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages

Abstract

Support