ChatPaper.aiChatPaper

개인정보 보호, 접근성 향상, 비용 절감: 의료 기록 및 노트 생성을 위한 온디바이스 인공지능 모델

Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation

July 3, 2025
저자: Johnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi
cs.AI

초록

배경: 임상 문서화는 의료 제공자에게 상당한 부담으로 작용하며, 의사들은 하루에 최대 2시간을 행정 업무에 소비합니다. 최근 대형 언어 모델(LLM)의 발전은 유망한 해결책을 제공하지만, 개인정보 보호 문제와 계산 요구 사항으로 인해 의료 현장에서의 채택이 제한되고 있습니다. 목적: 완전한 데이터 주권을 유지하면서 의료 기록에서 구조화된 의료 노트를 생성할 수 있는 Llama 3.2 1B 모델을 사용하여 개인정보 보호가 가능한 온디바이스 의료 기록 시스템을 개발하고 평가하는 것입니다. 방법: 1,500개의 합성 의료 기록-구조화된 노트 쌍을 사용하여 LoRA를 통한 파라미터 효율적 미세 조정(PEFT)으로 Llama 3.2 1B 모델을 미세 조정했습니다. 이 모델은 기본 Llama 3.2 1B 모델과 비교하여 두 데이터셋(100개의 내분비학 기록 및 140개의 수정된 ACI 벤치마크 사례)에서 평가되었습니다. 평가는 통계적 지표(ROUGE, BERTScore, BLEURT)와 여러 임상 품질 차원에서의 LLM-as-judge 평가를 사용했습니다. 결과: 미세 조정된 OnDevice 모델은 기본 모델에 비해 상당한 개선을 보였습니다. ACI 벤치마크에서 ROUGE-1 점수는 0.346에서 0.496로 증가했으며, BERTScore F1은 0.832에서 0.866으로 향상되었습니다. 임상 품질 평가에서는 주요 환각 사례가 85건에서 35건으로 감소했고, 사실 정확도가 5점 척도에서 2.81에서 3.54로 향상되었습니다. 내부 평가 데이터셋에서도 유사한 개선이 관찰되었으며, 종합 점수가 3.13에서 4.43으로 41.5% 증가했습니다. 결론: 의료 기록을 위한 소형 LLM의 미세 조정은 임상적으로 의미 있는 개선을 가져오면서도 완전한 온디바이스 브라우저 배포를 가능하게 합니다. 이 접근 방식은 의료 현장에서 AI 채택의 주요 장벽인 개인정보 보호, 비용 절감, 자원이 제한된 환경에서의 접근성을 해결합니다.
English
Background: Clinical documentation represents a significant burden for healthcare providers, with physicians spending up to 2 hours daily on administrative tasks. Recent advances in large language models (LLMs) offer promising solutions, but privacy concerns and computational requirements limit their adoption in healthcare settings. Objective: To develop and evaluate a privacy-preserving, on-device medical transcription system using a fine-tuned Llama 3.2 1B model capable of generating structured medical notes from medical transcriptions while maintaining complete data sovereignty entirely in the browser. Methods: We fine-tuned a Llama 3.2 1B model using Parameter-Efficient Fine-Tuning (PEFT) with LoRA on 1,500 synthetic medical transcription-to-structured note pairs. The model was evaluated against the base Llama 3.2 1B on two datasets: 100 endocrinology transcripts and 140 modified ACI benchmark cases. Evaluation employed both statistical metrics (ROUGE, BERTScore, BLEURT) and LLM-as-judge assessments across multiple clinical quality dimensions. Results: The fine-tuned OnDevice model demonstrated substantial improvements over the base model. On the ACI benchmark, ROUGE-1 scores increased from 0.346 to 0.496, while BERTScore F1 improved from 0.832 to 0.866. Clinical quality assessments showed marked reduction in major hallucinations (from 85 to 35 cases) and enhanced factual correctness (2.81 to 3.54 on 5-point scale). Similar improvements were observed on the internal evaluation dataset, with composite scores increasing from 3.13 to 4.43 (+41.5%). Conclusions: Fine-tuning compact LLMs for medical transcription yields clinically meaningful improvements while enabling complete on-device browser deployment. This approach addresses key barriers to AI adoption in healthcare: privacy preservation, cost reduction, and accessibility for resource-constrained environments.
PDF81July 8, 2025