Маленькие языковые модели для конфиденциального извлечения клинической информации в условиях ограниченных языковых ресурсов

Аннотация

Извлечение клинической информации из медицинских транскриптов на языках с ограниченными ресурсами остается серьезной проблемой в обработке естественного языка (ОЕЯ) для здравоохранения. В данном исследовании оценивается двухэтапный конвейер, сочетающий модель перевода с персидского на английский Aya-expanse-8B с пятью открытыми малыми языковыми моделями (МЯМ) — Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct и Gemma-3-1B-it — для бинарного извлечения 13 клинических признаков из 1221 анонимизированной персидской транскрипции, собранной в кол-центре паллиативной помощи онкологическим больным. Используя стратегию немногих примеров (few-shot) без дообучения, модели оценивались по макро-усредненной F1-мере, коэффициенту корреляции Мэттьюса (MCC), чувствительности и специфичности для учета дисбаланса классов. Qwen2.5-7B-Instruct показала наивысшую общую производительность (медиана macro-F1: 0,899; MCC: 0,797), в то время как Gemma-3-1B-it продемонстрировала наихудшие результаты. Более крупные модели (7–8 млрд параметров) стабильно превосходили меньшие аналоги по чувствительности и MCC. Двуязычный анализ Aya-expanse-8B показал, что перевод персидских транскриптов на английский язык повышал чувствительность, сокращал количество пропущенных ответов и улучшал метрики, устойчивые к дисбалансу классов, хотя и ценой некоторого снижения специфичности и точности. Результаты на уровне признаков показали надежное извлечение физиологических симптомов большинством моделей, тогда как психологические жалобы, административные запросы и сложные соматические признаки оставались трудными для извлечения. Эти результаты представляют практичный, сохраняющий конфиденциальность подход к развертыванию открытых МЯМ в условиях многозадачной клинической ОЕЯ с ограниченной инфраструктурой и ресурсами для разметки, а также подчеркивают важность совместной оптимизации масштаба модели и стратегии входного языка для чувствительных приложений в здравоохранении.

English

Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.

Маленькие языковые модели для конфиденциального извлечения клинической информации в условиях ограниченных языковых ресурсов

Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages

Аннотация

Support