ChatPaper.aiChatPaper

Privacy behouden, toegankelijkheid vergroten en kosten verlagen: Een on-device kunstmatige intelligentie-model voor medische transcriptie en notitiegeneratie

Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation

July 3, 2025
Auteurs: Johnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi
cs.AI

Samenvatting

Achtergrond: Klinische documentatie vormt een aanzienlijke belasting voor zorgverleners, waarbij artsen dagelijks tot 2 uur besteden aan administratieve taken. Recente vooruitgang in grote taalmodellen (LLM's) biedt veelbelovende oplossingen, maar privacyzorgen en rekenkundige vereisten beperken hun adoptie in zorgomgevingen. Doel: Het ontwikkelen en evalueren van een privacybeschermend, on-device medisch transcriptiesysteem met behulp van een fijn afgestemd Llama 3.2 1B-model dat gestructureerde medische notities kan genereren uit medische transcripties, terwijl volledige datasobereiniteit in de browser wordt behouden. Methoden: We hebben een Llama 3.2 1B-model fijn afgestemd met Parameter-Efficient Fine-Tuning (PEFT) met LoRA op 1.500 synthetische medische transcriptie-naar-gestructureerde notitie-paren. Het model werd geëvalueerd tegen het basis Llama 3.2 1B-model op twee datasets: 100 endocrinologie-transcripties en 140 aangepaste ACI-benchmarkgevallen. De evaluatie omvatte zowel statistische metrieken (ROUGE, BERTScore, BLEURT) als LLM-as-judge-beoordelingen over meerdere klinische kwaliteitsdimensies. Resultaten: Het fijn afgestemde OnDevice-model toonde aanzienlijke verbeteringen ten opzichte van het basismodel. Op de ACI-benchmark namen de ROUGE-1-scores toe van 0.346 naar 0.496, terwijl de BERTScore F1 verbeterde van 0.832 naar 0.866. Klinische kwaliteitsbeoordelingen toonden een duidelijke vermindering van grote hallucinaties (van 85 naar 35 gevallen) en een verbeterde feitelijke correctheid (2.81 naar 3.54 op een 5-puntsschaal). Soortgelijke verbeteringen werden waargenomen op de interne evaluatiedataset, waarbij de samengestelde scores stegen van 3.13 naar 4.43 (+41,5%). Conclusies: Het fijn afstemmen van compacte LLM's voor medische transcriptie levert klinisch betekenisvolle verbeteringen op, terwijl volledige on-device browserimplementatie mogelijk wordt gemaakt. Deze aanpak adresseert belangrijke barrières voor AI-adoptie in de gezondheidszorg: privacybescherming, kostenreductie en toegankelijkheid voor omgevingen met beperkte middelen.
English
Background: Clinical documentation represents a significant burden for healthcare providers, with physicians spending up to 2 hours daily on administrative tasks. Recent advances in large language models (LLMs) offer promising solutions, but privacy concerns and computational requirements limit their adoption in healthcare settings. Objective: To develop and evaluate a privacy-preserving, on-device medical transcription system using a fine-tuned Llama 3.2 1B model capable of generating structured medical notes from medical transcriptions while maintaining complete data sovereignty entirely in the browser. Methods: We fine-tuned a Llama 3.2 1B model using Parameter-Efficient Fine-Tuning (PEFT) with LoRA on 1,500 synthetic medical transcription-to-structured note pairs. The model was evaluated against the base Llama 3.2 1B on two datasets: 100 endocrinology transcripts and 140 modified ACI benchmark cases. Evaluation employed both statistical metrics (ROUGE, BERTScore, BLEURT) and LLM-as-judge assessments across multiple clinical quality dimensions. Results: The fine-tuned OnDevice model demonstrated substantial improvements over the base model. On the ACI benchmark, ROUGE-1 scores increased from 0.346 to 0.496, while BERTScore F1 improved from 0.832 to 0.866. Clinical quality assessments showed marked reduction in major hallucinations (from 85 to 35 cases) and enhanced factual correctness (2.81 to 3.54 on 5-point scale). Similar improvements were observed on the internal evaluation dataset, with composite scores increasing from 3.13 to 4.43 (+41.5%). Conclusions: Fine-tuning compact LLMs for medical transcription yields clinically meaningful improvements while enabling complete on-device browser deployment. This approach addresses key barriers to AI adoption in healthcare: privacy preservation, cost reduction, and accessibility for resource-constrained environments.
PDF91July 8, 2025