ChatPaper.aiChatPaper

Preservando la privacidad, aumentando la accesibilidad y reduciendo costos: un modelo de inteligencia artificial en el dispositivo para transcripción médica y generación de notas

Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation

July 3, 2025
Autores: Johnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi
cs.AI

Resumen

Antecedentes: La documentación clínica representa una carga significativa para los proveedores de atención médica, con los médicos dedicando hasta 2 horas diarias a tareas administrativas. Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ofrecen soluciones prometedoras, pero las preocupaciones sobre la privacidad y los requisitos computacionales limitan su adopción en entornos de atención médica. Objetivo: Desarrollar y evaluar un sistema de transcripción médica que preserve la privacidad y funcione en el dispositivo, utilizando un modelo Llama 3.2 1B ajustado, capaz de generar notas médicas estructuradas a partir de transcripciones médicas mientras mantiene la soberanía completa de los datos directamente en el navegador. Métodos: Ajustamos un modelo Llama 3.2 1B utilizando Ajuste Eficiente de Parámetros (PEFT, por sus siglas en inglés) con LoRA en 1,500 pares sintéticos de transcripciones médicas a notas estructuradas. El modelo fue evaluado frente al modelo base Llama 3.2 1B en dos conjuntos de datos: 100 transcripciones de endocrinología y 140 casos modificados del benchmark ACI. La evaluación empleó tanto métricas estadísticas (ROUGE, BERTScore, BLEURT) como evaluaciones de LLM-como-juez en múltiples dimensiones de calidad clínica. Resultados: El modelo OnDevice ajustado demostró mejoras sustanciales sobre el modelo base. En el benchmark ACI, las puntuaciones ROUGE-1 aumentaron de 0.346 a 0.496, mientras que el F1 de BERTScore mejoró de 0.832 a 0.866. Las evaluaciones de calidad clínica mostraron una reducción marcada en las alucinaciones mayores (de 85 a 35 casos) y una mayor corrección factual (de 2.81 a 3.54 en una escala de 5 puntos). Se observaron mejoras similares en el conjunto de datos de evaluación interna, con puntuaciones compuestas que aumentaron de 3.13 a 4.43 (+41.5%). Conclusiones: El ajuste de LLMs compactos para la transcripción médica produce mejoras clínicamente significativas mientras permite una implementación completa en el navegador en el dispositivo. Este enfoque aborda barreras clave para la adopción de la IA en la atención médica: preservación de la privacidad, reducción de costos y accesibilidad para entornos con recursos limitados.
English
Background: Clinical documentation represents a significant burden for healthcare providers, with physicians spending up to 2 hours daily on administrative tasks. Recent advances in large language models (LLMs) offer promising solutions, but privacy concerns and computational requirements limit their adoption in healthcare settings. Objective: To develop and evaluate a privacy-preserving, on-device medical transcription system using a fine-tuned Llama 3.2 1B model capable of generating structured medical notes from medical transcriptions while maintaining complete data sovereignty entirely in the browser. Methods: We fine-tuned a Llama 3.2 1B model using Parameter-Efficient Fine-Tuning (PEFT) with LoRA on 1,500 synthetic medical transcription-to-structured note pairs. The model was evaluated against the base Llama 3.2 1B on two datasets: 100 endocrinology transcripts and 140 modified ACI benchmark cases. Evaluation employed both statistical metrics (ROUGE, BERTScore, BLEURT) and LLM-as-judge assessments across multiple clinical quality dimensions. Results: The fine-tuned OnDevice model demonstrated substantial improvements over the base model. On the ACI benchmark, ROUGE-1 scores increased from 0.346 to 0.496, while BERTScore F1 improved from 0.832 to 0.866. Clinical quality assessments showed marked reduction in major hallucinations (from 85 to 35 cases) and enhanced factual correctness (2.81 to 3.54 on 5-point scale). Similar improvements were observed on the internal evaluation dataset, with composite scores increasing from 3.13 to 4.43 (+41.5%). Conclusions: Fine-tuning compact LLMs for medical transcription yields clinically meaningful improvements while enabling complete on-device browser deployment. This approach addresses key barriers to AI adoption in healthcare: privacy preservation, cost reduction, and accessibility for resource-constrained environments.
PDF81July 8, 2025