Petits modèles linguistiques pour l'extraction d'informations cliniques préservant la confidentialité dans les langues peu dotées

Résumé

L'extraction d'informations cliniques à partir de transcriptions médicales dans des langues peu dotées reste un défi majeur pour le traitement du langage naturel (TLP) en santé. Cette étude évalue une pipeline en deux étapes combinant Aya-expanse-8B comme modèle de traduction persan-anglais avec cinq petits modèles de langage (SLM) open-source — Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct et Gemma-3-1B-it — pour l'extraction binaire de 13 caractéristiques cliniques à partir de 1 221 transcriptions persanes anonymisées collectées dans un centre d'appels en soins palliatifs oncologiques. En utilisant une stratégie d'« amorçage » par quelques exemples sans affinage, les modèles ont été évalués sur le score F1 macro-moyenné, le coefficient de corrélation de Matthews (MCC), la sensibilité et la spécificité pour tenir compte du déséquilibre des classes. Qwen2.5-7B-Instruct a obtenu les performances globales les plus élevées (F1 macro médian : 0,899 ; MCC : 0,797), tandis que Gemma-3-1B-it a montré les résultats les plus faibles. Les modèles plus grands (7B–8B paramètres) ont systématiquement surpassé leurs homologues plus petits en sensibilité et en MCC. Une analyse bilingue d'Aya-expanse-8B a révélé que la traduction des transcriptions persanes vers l'anglais améliorait la sensibilité, réduisait les sorties manquantes et augmentait les métriques robustes au déséquilibre des classes, bien qu'au prix d'une légère baisse de spécificité et de précision. Les résultats au niveau des caractéristiques ont montré une extraction fiable des symptômes physiologiques pour la plupart des modèles, tandis que les plaintes psychologiques, les demandes administratives et les caractéristiques somatiques complexes restaient difficiles. Ces résultats établissent une feuille de route pratique et respectueuse de la vie privée pour le déploiement de SLM open-source dans des contextes cliniques multilingues de TLP avec des infrastructures et des ressources d'annotation limitées, et soulignent l'importance d'optimiser conjointement l'échelle du modèle et la stratégie de langue d'entrée pour les applications de santé sensibles.

English

Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.

Petits modèles linguistiques pour l'extraction d'informations cliniques préservant la confidentialité dans les langues peu dotées

Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages

Résumé

Support