ChatPaper.aiChatPaper

Preservare la Privacy, Aumentare l'Accessibilità e Ridurre i Costi: Un Modello di Intelligenza Artificiale su Dispositivo per la Trascrizione Medica e la Generazione di Note

Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation

July 3, 2025
Autori: Johnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi
cs.AI

Abstract

Contesto: La documentazione clinica rappresenta un onere significativo per i professionisti sanitari, con i medici che dedicano fino a 2 ore al giorno a compiti amministrativi. I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) offrono soluzioni promettenti, ma le preoccupazioni relative alla privacy e i requisiti computazionali ne limitano l'adozione in ambito sanitario. Obiettivo: Sviluppare e valutare un sistema di trascrizione medica che preservi la privacy e funzioni direttamente sul dispositivo, utilizzando un modello Llama 3.2 1B ottimizzato, in grado di generare note mediche strutturate da trascrizioni mediche mantenendo la completa sovranità dei dati interamente nel browser. Metodi: Abbiamo ottimizzato un modello Llama 3.2 1B utilizzando il fine-tuning efficiente dei parametri (PEFT) con LoRA su 1.500 coppie sintetiche di trascrizioni mediche e note strutturate. Il modello è stato valutato rispetto al modello base Llama 3.2 1B su due dataset: 100 trascrizioni endocrinologiche e 140 casi modificati del benchmark ACI. La valutazione ha impiegato sia metriche statistiche (ROUGE, BERTScore, BLEURT) che valutazioni basate su LLM-as-judge su molteplici dimensioni della qualità clinica. Risultati: Il modello OnDevice ottimizzato ha mostrato miglioramenti sostanziali rispetto al modello base. Sul benchmark ACI, i punteggi ROUGE-1 sono aumentati da 0,346 a 0,496, mentre il BERTScore F1 è migliorato da 0,832 a 0,866. Le valutazioni della qualità clinica hanno evidenziato una riduzione marcata delle allucinazioni maggiori (da 85 a 35 casi) e una maggiore correttezza fattuale (da 2,81 a 3,54 su una scala a 5 punti). Miglioramenti simili sono stati osservati sul dataset di valutazione interno, con punteggi compositi aumentati da 3,13 a 4,43 (+41,5%). Conclusioni: L'ottimizzazione di LLM compatti per la trascrizione medica produce miglioramenti clinicamente significativi, consentendo al contempo una distribuzione completa sul dispositivo tramite browser. Questo approccio affronta le principali barriere all'adozione dell'IA in ambito sanitario: preservazione della privacy, riduzione dei costi e accessibilità per ambienti con risorse limitate.
English
Background: Clinical documentation represents a significant burden for healthcare providers, with physicians spending up to 2 hours daily on administrative tasks. Recent advances in large language models (LLMs) offer promising solutions, but privacy concerns and computational requirements limit their adoption in healthcare settings. Objective: To develop and evaluate a privacy-preserving, on-device medical transcription system using a fine-tuned Llama 3.2 1B model capable of generating structured medical notes from medical transcriptions while maintaining complete data sovereignty entirely in the browser. Methods: We fine-tuned a Llama 3.2 1B model using Parameter-Efficient Fine-Tuning (PEFT) with LoRA on 1,500 synthetic medical transcription-to-structured note pairs. The model was evaluated against the base Llama 3.2 1B on two datasets: 100 endocrinology transcripts and 140 modified ACI benchmark cases. Evaluation employed both statistical metrics (ROUGE, BERTScore, BLEURT) and LLM-as-judge assessments across multiple clinical quality dimensions. Results: The fine-tuned OnDevice model demonstrated substantial improvements over the base model. On the ACI benchmark, ROUGE-1 scores increased from 0.346 to 0.496, while BERTScore F1 improved from 0.832 to 0.866. Clinical quality assessments showed marked reduction in major hallucinations (from 85 to 35 cases) and enhanced factual correctness (2.81 to 3.54 on 5-point scale). Similar improvements were observed on the internal evaluation dataset, with composite scores increasing from 3.13 to 4.43 (+41.5%). Conclusions: Fine-tuning compact LLMs for medical transcription yields clinically meaningful improvements while enabling complete on-device browser deployment. This approach addresses key barriers to AI adoption in healthcare: privacy preservation, cost reduction, and accessibility for resource-constrained environments.
PDF91July 8, 2025