Modelos de Lenguaje Pequeños para la Extracción de Información Clínica con Preservación de la Privacidad en Lenguajes de Recursos Limitados

Resumen

La extracción de información clínica de transcripciones médicas en lenguajes de bajos recursos sigue siendo un desafío significativo en el procesamiento del lenguaje natural (PLN) para la salud. Este estudio evalúa un pipeline de dos pasos que combina Aya-expanse-8B como modelo de traducción persa-inglés con cinco modelos de lenguaje pequeños (SLM) de código abierto —Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct y Gemma-3-1B-it— para la extracción binaria de 13 características clínicas a partir de 1.221 transcripciones anónimas en persa recopiladas en un centro de llamadas de cuidados paliativos oncológicos. Utilizando una estrategia de *few-shot prompting* sin ajuste fino, los modelos se evaluaron según la puntuación F1 macro-promediada, el coeficiente de correlación de Matthews (MCC), la sensibilidad y la especificidad para tener en cuenta el desequilibrio de clases. Qwen2.5-7B-Instruct logró el mayor rendimiento general (mediana de F1 macro: 0,899; MCC: 0,797), mientras que Gemma-3-1B-it mostró los resultados más débiles. Los modelos más grandes (7B-8B parámetros) superaron consistentemente a sus contrapartes más pequeñas en sensibilidad y MCC. Un análisis bilingüe de Aya-expanse-8B reveló que traducir las transcripciones del persa al inglés mejoró la sensibilidad, redujo las salidas faltantes e incrementó las métricas robustas al desequilibrio de clases, aunque a costa de una especificidad y precisión ligeramente menores. Los resultados a nivel de característica mostraron una extracción confiable de síntomas fisiológicos en la mayoría de los modelos, mientras que las quejas psicológicas, las solicitudes administrativas y las características somáticas complejas siguieron siendo un reto. Estos hallazgos establecen un plan práctico y que preserva la privacidad para implementar SLM de código abierto en entornos clínicos multilingües de PLN con infraestructura y recursos de anotación limitados, y destacan la importancia de optimizar conjuntamente la escala del modelo y la estrategia de lenguaje de entrada para aplicaciones sanitarias sensibles.

English

Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.

Modelos de Lenguaje Pequeños para la Extracción de Información Clínica con Preservación de la Privacidad en Lenguajes de Recursos Limitados

Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages

Resumen

Support