Kleine Sprachmodelle für datenschutzbewahrende klinische Informationsextraktion in ressourcenarmen Sprachen

Zusammenfassung

Die Extraktion klinischer Informationen aus medizinischen Transkripten in ressourcenarmen Sprachen bleibt eine große Herausforderung für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) im Gesundheitswesen. Diese Studie evaluiert eine zweistufige Pipeline, die Aya-expanse-8B als persisch-englisches Übersetzungsmodell mit fünf quelloffenen kleinen Sprachmodellen (Small Language Models, SLMs) – Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct und Gemma-3-1B-it – kombiniert, um 13 klinische Merkmale binär aus 1.221 anonymisierten persischen Transkripten eines palliativmedizinischen Callcenters für Krebserkrankungen zu extrahieren. Unter Verwendung einer Few-Shot-Prompting-Strategie ohne Feinabstimmung wurden die Modelle anhand des makro-gemittelten F1-Scores, des Matthews-Korrelationskoeffizienten (MCC), der Sensitivität und der Spezifität bewertet, um die Klassenungleichgewicht zu berücksichtigen. Qwen2.5-7B-Instruct erzielte die höchste Gesamtleistung (medianer Makro-F1: 0,899; MCC: 0,797), während Gemma-3-1B-it die schwächsten Ergebnisse zeigte. Größere Modelle (7B–8B Parameter) übertrafen durchweg kleinere Modelle in Sensitivität und MCC. Eine bilinguale Analyse von Aya-expanse-8B ergab, dass die Übersetzung persischer Transkripte ins Englische die Sensitivität verbesserte, fehlende Ausgaben reduzierte und Metriken, die robust gegenüber Klassenungleichgewicht sind, steigerte, allerdings auf Kosten einer leicht geringeren Spezifität und Präzision. Auf Merkmalsebene zeigten die Ergebnisse eine zuverlässige Extraktion physiologischer Symptome bei den meisten Modellen, während psychologische Beschwerden, administrative Anfragen und komplexe somatische Merkmale nach wie vor herausfordernd blieben. Diese Ergebnisse liefern einen praktischen, datenschutzfreundlichen Leitfaden für den Einsatz quelloffener SLMs in multilingualen klinischen NLP-Umgebungen mit begrenzter Infrastruktur und Annotationsressourcen und unterstreichen die Bedeutung einer gemeinsamen Optimierung von Modellgröße und Eingabesprachenstrategie für sensible Gesundheitsanwendungen.

English

Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.

Kleine Sprachmodelle für datenschutzbewahrende klinische Informationsextraktion in ressourcenarmen Sprachen

Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages

Zusammenfassung

Support