Pequenos Modelos de Linguagem para Extração de Informação Clínica com Preservação de Privacidade em Idiomas de Baixos Recursos
Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages
February 24, 2026
Autores: Mohammadreza Ghaffarzadeh-Esfahani, Nahid Yousefian, Ebrahim Heidari-Farsani, Ali Akbar Omidvarian, Sepehr Ghahraei, Atena Farangi, AmirBahador Boroumand
cs.AI
Resumo
A extração de informação clínica a partir de transcrições médicas em línguas com poucos recursos continua a ser um desafio significativo no processamento de linguagem natural (PLN) em saúde. Este estudo avalia um *pipeline* de duas etapas que combina o Aya-expanse-8B como modelo de tradução persa-inglês com cinco modelos de linguagem pequenos (SLMs) de código aberto -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct e Gemma-3-1B-it -- para a extração binária de 13 características clínicas a partir de 1.221 transcrições persas anonimizadas, recolhidas num call center de cuidados paliativos oncológicos. Utilizando uma estratégia de *prompting* *few-shot* sem afinação (*fine-tuning*), os modelos foram avaliados com base na pontuação F1 macro-média, no Coeficiente de Correlação de Matthews (MCC), na sensibilidade e na especificidade, para ter em conta o desequilíbrio de classes. O Qwen2.5-7B-Instruct alcançou o melhor desempenho global (mediana da macro-F1: 0,899; MCC: 0,797), enquanto o Gemma-3-1B-it apresentou os resultados mais fracos. Modelos maiores (7B--8B parâmetros) superaram consistentemente os seus homólogos mais pequenos em sensibilidade e MCC. Uma análise bilingue do Aya-expanse-8B revelou que a tradução das transcrições persas para inglês melhorou a sensibilidade, reduziu as saídas em falta e aumentou as métricas robustas ao desequilíbrio de classes, embora à custa de uma especificidade e precisão ligeiramente inferiores. Os resultados a nível das características mostraram uma extração fiável de sintomas fisiológicos na maioria dos modelos, enquanto que queixas psicológicas, pedidos administrativos e características somáticas complexas permaneceram desafiadores. Estes resultados estabelecem um plano prático e de preservação da privacidade para a implementação de SLMs de código aberto em contextos clínicos de PLN multilingues com infraestrutura e recursos de anotação limitados, e destacam a importância de otimizar conjuntamente a escala do modelo e a estratégia de língua de entrada para aplicações sensíveis em saúde.
English
Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.