Pequenos Modelos de Linguagem para Extração de Informação Clínica com Preservação de Privacidade em Idiomas de Baixos Recursos

Resumo

A extração de informação clínica a partir de transcrições médicas em línguas com poucos recursos continua a ser um desafio significativo no processamento de linguagem natural (PLN) em saúde. Este estudo avalia um *pipeline* de duas etapas que combina o Aya-expanse-8B como modelo de tradução persa-inglês com cinco modelos de linguagem pequenos (SLMs) de código aberto -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct e Gemma-3-1B-it -- para a extração binária de 13 características clínicas a partir de 1.221 transcrições persas anonimizadas, recolhidas num call center de cuidados paliativos oncológicos. Utilizando uma estratégia de *prompting* *few-shot* sem afinação (*fine-tuning*), os modelos foram avaliados com base na pontuação F1 macro-média, no Coeficiente de Correlação de Matthews (MCC), na sensibilidade e na especificidade, para ter em conta o desequilíbrio de classes. O Qwen2.5-7B-Instruct alcançou o melhor desempenho global (mediana da macro-F1: 0,899; MCC: 0,797), enquanto o Gemma-3-1B-it apresentou os resultados mais fracos. Modelos maiores (7B--8B parâmetros) superaram consistentemente os seus homólogos mais pequenos em sensibilidade e MCC. Uma análise bilingue do Aya-expanse-8B revelou que a tradução das transcrições persas para inglês melhorou a sensibilidade, reduziu as saídas em falta e aumentou as métricas robustas ao desequilíbrio de classes, embora à custa de uma especificidade e precisão ligeiramente inferiores. Os resultados a nível das características mostraram uma extração fiável de sintomas fisiológicos na maioria dos modelos, enquanto que queixas psicológicas, pedidos administrativos e características somáticas complexas permaneceram desafiadores. Estes resultados estabelecem um plano prático e de preservação da privacidade para a implementação de SLMs de código aberto em contextos clínicos de PLN multilingues com infraestrutura e recursos de anotação limitados, e destacam a importância de otimizar conjuntamente a escala do modelo e a estratégia de língua de entrada para aplicações sensíveis em saúde.

English

Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.

Pequenos Modelos de Linguagem para Extração de Informação Clínica com Preservação de Privacidade em Idiomas de Baixos Recursos

Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages

Resumo

Support