ChatPaper.aiChatPaper

Privatsphäre bewahren, Zugänglichkeit erhöhen und Kosten senken: Ein On-Device-Künstliche-Intelligenz-Modell für medizinische Transkription und Notizgenerierung

Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation

July 3, 2025
papers.authors: Johnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi
cs.AI

papers.abstract

Hintergrund: Die klinische Dokumentation stellt eine erhebliche Belastung für das Gesundheitspersonal dar, wobei Ärzte bis zu zwei Stunden täglich mit administrativen Aufgaben verbringen. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) bieten vielversprechende Lösungen, jedoch schränken Datenschutzbedenken und hohe Rechenanforderungen deren Einsatz im Gesundheitswesen ein. Ziel: Entwicklung und Evaluierung eines datenschutzfreundlichen, geräteinternen medizinischen Transkriptionssystems unter Verwendung eines feinabgestimmten Llama 3.2 1B-Modells, das strukturierte medizinische Notizen aus medizinischen Transkriptionen generieren kann, während die vollständige Datenhoheit ausschließlich im Browser gewährleistet wird. Methoden: Wir haben ein Llama 3.2 1B-Modell mittels Parameter-Efficient Fine-Tuning (PEFT) mit LoRA anhand von 1.500 synthetischen Paaren aus medizinischen Transkriptionen und strukturierten Notizen feinabgestimmt. Das Modell wurde gegen das Basismodell Llama 3.2 1B auf zwei Datensätzen evaluiert: 100 endokrinologische Transkripte und 140 modifizierte ACI-Benchmark-Fälle. Die Bewertung umfasste sowohl statistische Metriken (ROUGE, BERTScore, BLEURT) als auch LLM-gestützte Bewertungen über mehrere klinische Qualitätsdimensionen. Ergebnisse: Das feinabgestimmte OnDevice-Modell zeigte deutliche Verbesserungen gegenüber dem Basismodell. Im ACI-Benchmark stiegen die ROUGE-1-Werte von 0,346 auf 0,496, während der BERTScore F1 von 0,832 auf 0,866 anstieg. Die klinischen Qualitätsbewertungen zeigten eine deutliche Reduktion schwerwiegender Halluzinationen (von 85 auf 35 Fälle) und eine verbesserte faktische Korrektheit (von 2,81 auf 3,54 auf einer 5-Punkte-Skala). Ähnliche Verbesserungen wurden im internen Evaluierungsdatensatz beobachtet, wobei die Gesamtbewertungen von 3,13 auf 4,43 (+41,5 %) anstiegen. Schlussfolgerungen: Die Feinabstimmung kompakter LLMs für die medizinische Transkription führt zu klinisch relevanten Verbesserungen und ermöglicht eine vollständige geräteinterne Browser-Implementierung. Dieser Ansatz adressiert zentrale Hindernisse für die KI-Integration im Gesundheitswesen: Datenschutz, Kostensenkung und Zugänglichkeit für ressourcenbeschränkte Umgebungen.
English
Background: Clinical documentation represents a significant burden for healthcare providers, with physicians spending up to 2 hours daily on administrative tasks. Recent advances in large language models (LLMs) offer promising solutions, but privacy concerns and computational requirements limit their adoption in healthcare settings. Objective: To develop and evaluate a privacy-preserving, on-device medical transcription system using a fine-tuned Llama 3.2 1B model capable of generating structured medical notes from medical transcriptions while maintaining complete data sovereignty entirely in the browser. Methods: We fine-tuned a Llama 3.2 1B model using Parameter-Efficient Fine-Tuning (PEFT) with LoRA on 1,500 synthetic medical transcription-to-structured note pairs. The model was evaluated against the base Llama 3.2 1B on two datasets: 100 endocrinology transcripts and 140 modified ACI benchmark cases. Evaluation employed both statistical metrics (ROUGE, BERTScore, BLEURT) and LLM-as-judge assessments across multiple clinical quality dimensions. Results: The fine-tuned OnDevice model demonstrated substantial improvements over the base model. On the ACI benchmark, ROUGE-1 scores increased from 0.346 to 0.496, while BERTScore F1 improved from 0.832 to 0.866. Clinical quality assessments showed marked reduction in major hallucinations (from 85 to 35 cases) and enhanced factual correctness (2.81 to 3.54 on 5-point scale). Similar improvements were observed on the internal evaluation dataset, with composite scores increasing from 3.13 to 4.43 (+41.5%). Conclusions: Fine-tuning compact LLMs for medical transcription yields clinically meaningful improvements while enabling complete on-device browser deployment. This approach addresses key barriers to AI adoption in healthcare: privacy preservation, cost reduction, and accessibility for resource-constrained environments.
PDF81July 8, 2025