Preservare la Privacy, Aumentare l'Accessibilità e Ridurre i Costi: Un Modello di Intelligenza Artificiale su Dispositivo per la Trascrizione Medica e la Generazione di Note
Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation
July 3, 2025
Autori: Johnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi
cs.AI
Abstract
Contesto: La documentazione clinica rappresenta un onere significativo per i professionisti sanitari, con i medici che dedicano fino a 2 ore al giorno a compiti amministrativi. I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) offrono soluzioni promettenti, ma le preoccupazioni relative alla privacy e i requisiti computazionali ne limitano l'adozione in ambito sanitario. Obiettivo: Sviluppare e valutare un sistema di trascrizione medica che preservi la privacy e funzioni direttamente sul dispositivo, utilizzando un modello Llama 3.2 1B ottimizzato, in grado di generare note mediche strutturate da trascrizioni mediche mantenendo la completa sovranità dei dati interamente nel browser. Metodi: Abbiamo ottimizzato un modello Llama 3.2 1B utilizzando il fine-tuning efficiente dei parametri (PEFT) con LoRA su 1.500 coppie sintetiche di trascrizioni mediche e note strutturate. Il modello è stato valutato rispetto al modello base Llama 3.2 1B su due dataset: 100 trascrizioni endocrinologiche e 140 casi modificati del benchmark ACI. La valutazione ha impiegato sia metriche statistiche (ROUGE, BERTScore, BLEURT) che valutazioni basate su LLM-as-judge su molteplici dimensioni della qualità clinica. Risultati: Il modello OnDevice ottimizzato ha mostrato miglioramenti sostanziali rispetto al modello base. Sul benchmark ACI, i punteggi ROUGE-1 sono aumentati da 0,346 a 0,496, mentre il BERTScore F1 è migliorato da 0,832 a 0,866. Le valutazioni della qualità clinica hanno evidenziato una riduzione marcata delle allucinazioni maggiori (da 85 a 35 casi) e una maggiore correttezza fattuale (da 2,81 a 3,54 su una scala a 5 punti). Miglioramenti simili sono stati osservati sul dataset di valutazione interno, con punteggi compositi aumentati da 3,13 a 4,43 (+41,5%). Conclusioni: L'ottimizzazione di LLM compatti per la trascrizione medica produce miglioramenti clinicamente significativi, consentendo al contempo una distribuzione completa sul dispositivo tramite browser. Questo approccio affronta le principali barriere all'adozione dell'IA in ambito sanitario: preservazione della privacy, riduzione dei costi e accessibilità per ambienti con risorse limitate.
English
Background: Clinical documentation represents a significant burden for
healthcare providers, with physicians spending up to 2 hours daily on
administrative tasks. Recent advances in large language models (LLMs) offer
promising solutions, but privacy concerns and computational requirements limit
their adoption in healthcare settings. Objective: To develop and evaluate a
privacy-preserving, on-device medical transcription system using a fine-tuned
Llama 3.2 1B model capable of generating structured medical notes from medical
transcriptions while maintaining complete data sovereignty entirely in the
browser. Methods: We fine-tuned a Llama 3.2 1B model using Parameter-Efficient
Fine-Tuning (PEFT) with LoRA on 1,500 synthetic medical
transcription-to-structured note pairs. The model was evaluated against the
base Llama 3.2 1B on two datasets: 100 endocrinology transcripts and 140
modified ACI benchmark cases. Evaluation employed both statistical metrics
(ROUGE, BERTScore, BLEURT) and LLM-as-judge assessments across multiple
clinical quality dimensions. Results: The fine-tuned OnDevice model
demonstrated substantial improvements over the base model. On the ACI
benchmark, ROUGE-1 scores increased from 0.346 to 0.496, while BERTScore F1
improved from 0.832 to 0.866. Clinical quality assessments showed marked
reduction in major hallucinations (from 85 to 35 cases) and enhanced factual
correctness (2.81 to 3.54 on 5-point scale). Similar improvements were observed
on the internal evaluation dataset, with composite scores increasing from 3.13
to 4.43 (+41.5%). Conclusions: Fine-tuning compact LLMs for medical
transcription yields clinically meaningful improvements while enabling complete
on-device browser deployment. This approach addresses key barriers to AI
adoption in healthcare: privacy preservation, cost reduction, and accessibility
for resource-constrained environments.