ChatPaper.aiChatPaper

Preservando a Privacidade, Aumentando a Acessibilidade e Reduzindo Custos: Um Modelo de Inteligência Artificial em Dispositivo para Transcrição Médica e Geração de Notas

Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation

July 3, 2025
Autores: Johnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi
cs.AI

Resumo

Contexto: A documentação clínica representa um fardo significativo para os profissionais de saúde, com médicos gastando até 2 horas diárias em tarefas administrativas. Avanços recentes em modelos de linguagem de grande escala (LLMs) oferecem soluções promissoras, mas preocupações com privacidade e requisitos computacionais limitam sua adoção em ambientes de saúde. Objetivo: Desenvolver e avaliar um sistema de transcrição médica que preserve a privacidade e opere diretamente no dispositivo, utilizando um modelo Llama 3.2 1B ajustado, capaz de gerar notas médicas estruturadas a partir de transcrições médicas, mantendo a soberania completa dos dados inteiramente no navegador. Métodos: Ajustamos um modelo Llama 3.2 1B utilizando Fine-Tuning Eficiente em Parâmetros (PEFT) com LoRA em 1.500 pares sintéticos de transcrição médica e notas estruturadas. O modelo foi avaliado em comparação com o modelo base Llama 3.2 1B em dois conjuntos de dados: 100 transcrições de endocrinologia e 140 casos modificados do benchmark ACI. A avaliação empregou métricas estatísticas (ROUGE, BERTScore, BLEURT) e avaliações LLM-como-juiz em múltiplas dimensões de qualidade clínica. Resultados: O modelo OnDevice ajustado demonstrou melhorias substanciais em relação ao modelo base. No benchmark ACI, os escores ROUGE-1 aumentaram de 0,346 para 0,496, enquanto o F1 do BERTScore melhorou de 0,832 para 0,866. As avaliações de qualidade clínica mostraram uma redução marcante em alucinações maiores (de 85 para 35 casos) e uma melhoria na correção factual (de 2,81 para 3,54 em uma escala de 5 pontos). Melhorias semelhantes foram observadas no conjunto de dados de avaliação interno, com escores compostos aumentando de 3,13 para 4,43 (+41,5%). Conclusões: O ajuste fino de LLMs compactos para transcrição médica resulta em melhorias clinicamente significativas, permitindo a implantação completa no navegador diretamente no dispositivo. Essa abordagem aborda barreiras-chave para a adoção de IA na saúde: preservação da privacidade, redução de custos e acessibilidade para ambientes com recursos limitados.
English
Background: Clinical documentation represents a significant burden for healthcare providers, with physicians spending up to 2 hours daily on administrative tasks. Recent advances in large language models (LLMs) offer promising solutions, but privacy concerns and computational requirements limit their adoption in healthcare settings. Objective: To develop and evaluate a privacy-preserving, on-device medical transcription system using a fine-tuned Llama 3.2 1B model capable of generating structured medical notes from medical transcriptions while maintaining complete data sovereignty entirely in the browser. Methods: We fine-tuned a Llama 3.2 1B model using Parameter-Efficient Fine-Tuning (PEFT) with LoRA on 1,500 synthetic medical transcription-to-structured note pairs. The model was evaluated against the base Llama 3.2 1B on two datasets: 100 endocrinology transcripts and 140 modified ACI benchmark cases. Evaluation employed both statistical metrics (ROUGE, BERTScore, BLEURT) and LLM-as-judge assessments across multiple clinical quality dimensions. Results: The fine-tuned OnDevice model demonstrated substantial improvements over the base model. On the ACI benchmark, ROUGE-1 scores increased from 0.346 to 0.496, while BERTScore F1 improved from 0.832 to 0.866. Clinical quality assessments showed marked reduction in major hallucinations (from 85 to 35 cases) and enhanced factual correctness (2.81 to 3.54 on 5-point scale). Similar improvements were observed on the internal evaluation dataset, with composite scores increasing from 3.13 to 4.43 (+41.5%). Conclusions: Fine-tuning compact LLMs for medical transcription yields clinically meaningful improvements while enabling complete on-device browser deployment. This approach addresses key barriers to AI adoption in healthcare: privacy preservation, cost reduction, and accessibility for resource-constrained environments.
PDF81July 8, 2025