Маленькие языковые модели для конфиденциального извлечения клинической информации в условиях ограниченных языковых ресурсов
Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages
February 24, 2026
Авторы: Mohammadreza Ghaffarzadeh-Esfahani, Nahid Yousefian, Ebrahim Heidari-Farsani, Ali Akbar Omidvarian, Sepehr Ghahraei, Atena Farangi, AmirBahador Boroumand
cs.AI
Аннотация
Извлечение клинической информации из медицинских транскриптов на языках с ограниченными ресурсами остается серьезной проблемой в обработке естественного языка (ОЕЯ) для здравоохранения. В данном исследовании оценивается двухэтапный конвейер, сочетающий модель перевода с персидского на английский Aya-expanse-8B с пятью открытыми малыми языковыми моделями (МЯМ) — Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct и Gemma-3-1B-it — для бинарного извлечения 13 клинических признаков из 1221 анонимизированной персидской транскрипции, собранной в кол-центре паллиативной помощи онкологическим больным. Используя стратегию немногих примеров (few-shot) без дообучения, модели оценивались по макро-усредненной F1-мере, коэффициенту корреляции Мэттьюса (MCC), чувствительности и специфичности для учета дисбаланса классов. Qwen2.5-7B-Instruct показала наивысшую общую производительность (медиана macro-F1: 0,899; MCC: 0,797), в то время как Gemma-3-1B-it продемонстрировала наихудшие результаты. Более крупные модели (7–8 млрд параметров) стабильно превосходили меньшие аналоги по чувствительности и MCC. Двуязычный анализ Aya-expanse-8B показал, что перевод персидских транскриптов на английский язык повышал чувствительность, сокращал количество пропущенных ответов и улучшал метрики, устойчивые к дисбалансу классов, хотя и ценой некоторого снижения специфичности и точности. Результаты на уровне признаков показали надежное извлечение физиологических симптомов большинством моделей, тогда как психологические жалобы, административные запросы и сложные соматические признаки оставались трудными для извлечения. Эти результаты представляют практичный, сохраняющий конфиденциальность подход к развертыванию открытых МЯМ в условиях многозадачной клинической ОЕЯ с ограниченной инфраструктурой и ресурсами для разметки, а также подчеркивают важность совместной оптимизации масштаба модели и стратегии входного языка для чувствительных приложений в здравоохранении.
English
Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.