ChatPaper.aiChatPaper

プライバシーの保護、アクセシビリティの向上、コスト削減:医療転写と診療記録生成のためのオンデバイス人工知能モデル

Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation

July 3, 2025
著者: Johnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi
cs.AI

要旨

背景:臨床文書作成は医療従事者にとって大きな負担となっており、医師は1日最大2時間を事務作業に費やしています。近年の大規模言語モデル(LLM)の進歩は有望な解決策を提供しますが、プライバシーへの懸念と計算リソースの要件から、医療現場での採用は限られています。目的:完全なデータ主権をブラウザ内で維持しつつ、医療記録から構造化された診療記録を生成可能な、Llama 3.2 1Bモデルをファインチューニングしたプライバシー保護型のオンデバイス医療記録システムを開発・評価すること。方法:1,500組の合成医療記録-構造化記録ペアを用いて、LoRAによるパラメータ効率的ファインチューニング(PEFT)を適用し、Llama 3.2 1Bモデルをファインチューニングしました。このモデルは、100件の内分泌学記録と140件の修正ACIベンチマークケースの2つのデータセットで、ベースのLlama 3.2 1Bモデルと比較評価されました。評価には統計的指標(ROUGE、BERTScore、BLEURT)と、複数の臨床品質次元にわたるLLM-as-judge評価が用いられました。結果:ファインチューニングされたOnDeviceモデルは、ベースモデルに対して大幅な改善を示しました。ACIベンチマークでは、ROUGE-1スコアが0.346から0.496に向上し、BERTScore F1は0.832から0.866に改善しました。臨床品質評価では、重大な虚偽情報の大幅な減少(85件から35件)と事実の正確性の向上(5段階評価で2.81から3.54)が確認されました。内部評価データセットでも同様の改善が観察され、総合スコアは3.13から4.43(+41.5%)に上昇しました。結論:医療記録用にコンパクトなLLMをファインチューニングすることで、臨床的に有意な改善が得られ、完全なオンデバイスブラウザ展開が可能となります。このアプローチは、医療分野におけるAI採用の主要な障壁であるプライバシー保護、コスト削減、リソース制約環境でのアクセシビリティに対応しています。
English
Background: Clinical documentation represents a significant burden for healthcare providers, with physicians spending up to 2 hours daily on administrative tasks. Recent advances in large language models (LLMs) offer promising solutions, but privacy concerns and computational requirements limit their adoption in healthcare settings. Objective: To develop and evaluate a privacy-preserving, on-device medical transcription system using a fine-tuned Llama 3.2 1B model capable of generating structured medical notes from medical transcriptions while maintaining complete data sovereignty entirely in the browser. Methods: We fine-tuned a Llama 3.2 1B model using Parameter-Efficient Fine-Tuning (PEFT) with LoRA on 1,500 synthetic medical transcription-to-structured note pairs. The model was evaluated against the base Llama 3.2 1B on two datasets: 100 endocrinology transcripts and 140 modified ACI benchmark cases. Evaluation employed both statistical metrics (ROUGE, BERTScore, BLEURT) and LLM-as-judge assessments across multiple clinical quality dimensions. Results: The fine-tuned OnDevice model demonstrated substantial improvements over the base model. On the ACI benchmark, ROUGE-1 scores increased from 0.346 to 0.496, while BERTScore F1 improved from 0.832 to 0.866. Clinical quality assessments showed marked reduction in major hallucinations (from 85 to 35 cases) and enhanced factual correctness (2.81 to 3.54 on 5-point scale). Similar improvements were observed on the internal evaluation dataset, with composite scores increasing from 3.13 to 4.43 (+41.5%). Conclusions: Fine-tuning compact LLMs for medical transcription yields clinically meaningful improvements while enabling complete on-device browser deployment. This approach addresses key barriers to AI adoption in healthcare: privacy preservation, cost reduction, and accessibility for resource-constrained environments.
PDF81July 8, 2025