Сохранение конфиденциальности, повышение доступности и снижение затрат: модель искусственного интеллекта на устройстве для медицинской транскрипции и создания записей
Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation
July 3, 2025
Авторы: Johnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi
cs.AI
Аннотация
**Введение:** Клиническая документация представляет собой значительную нагрузку для медицинских работников, при этом врачи тратят до 2 часов в день на выполнение административных задач. Последние достижения в области крупных языковых моделей (LLM) предлагают перспективные решения, однако проблемы конфиденциальности и вычислительные требования ограничивают их внедрение в медицинских учреждениях. **Цель:** Разработать и оценить систему медицинской транскрипции с сохранением конфиденциальности, работающую на устройстве, с использованием тонко настроенной модели Llama 3.2 1B, способной генерировать структурированные медицинские записи из медицинских транскрипций, при этом обеспечивая полный суверенитет данных непосредственно в браузере. **Методы:** Мы тонко настроили модель Llama 3.2 1B с использованием метода Parameter-Efficient Fine-Tuning (PEFT) с LoRA на 1500 синтетических парах медицинских транскрипций и структурированных записей. Модель была оценена в сравнении с базовой Llama 3.2 1B на двух наборах данных: 100 транскрипций эндокринологических случаев и 140 модифицированных случаев из бенчмарка ACI. Оценка проводилась с использованием как статистических метрик (ROUGE, BERTScore, BLEURT), так и оценок LLM-as-judge по нескольким клиническим параметрам качества. **Результаты:** Тонко настроенная модель OnDevice продемонстрировала значительные улучшения по сравнению с базовой моделью. На бенчмарке ACI показатели ROUGE-1 увеличились с 0,346 до 0,496, а BERTScore F1 улучшился с 0,832 до 0,866. Оценки клинического качества показали заметное снижение крупных ошибок (с 85 до 35 случаев) и повышение фактической точности (с 2,81 до 3,54 по 5-балльной шкале). Аналогичные улучшения были отмечены на внутреннем наборе данных, где общие оценки увеличились с 3,13 до 4,43 (+41,5%). **Выводы:** Тонкая настройка компактных LLM для медицинской транскрипции приводит к клинически значимым улучшениям, одновременно обеспечивая полное развертывание в браузере на устройстве. Этот подход решает ключевые барьеры для внедрения ИИ в здравоохранении: сохранение конфиденциальности, снижение затрат и доступность для ресурсоограниченных сред.
English
Background: Clinical documentation represents a significant burden for
healthcare providers, with physicians spending up to 2 hours daily on
administrative tasks. Recent advances in large language models (LLMs) offer
promising solutions, but privacy concerns and computational requirements limit
their adoption in healthcare settings. Objective: To develop and evaluate a
privacy-preserving, on-device medical transcription system using a fine-tuned
Llama 3.2 1B model capable of generating structured medical notes from medical
transcriptions while maintaining complete data sovereignty entirely in the
browser. Methods: We fine-tuned a Llama 3.2 1B model using Parameter-Efficient
Fine-Tuning (PEFT) with LoRA on 1,500 synthetic medical
transcription-to-structured note pairs. The model was evaluated against the
base Llama 3.2 1B on two datasets: 100 endocrinology transcripts and 140
modified ACI benchmark cases. Evaluation employed both statistical metrics
(ROUGE, BERTScore, BLEURT) and LLM-as-judge assessments across multiple
clinical quality dimensions. Results: The fine-tuned OnDevice model
demonstrated substantial improvements over the base model. On the ACI
benchmark, ROUGE-1 scores increased from 0.346 to 0.496, while BERTScore F1
improved from 0.832 to 0.866. Clinical quality assessments showed marked
reduction in major hallucinations (from 85 to 35 cases) and enhanced factual
correctness (2.81 to 3.54 on 5-point scale). Similar improvements were observed
on the internal evaluation dataset, with composite scores increasing from 3.13
to 4.43 (+41.5%). Conclusions: Fine-tuning compact LLMs for medical
transcription yields clinically meaningful improvements while enabling complete
on-device browser deployment. This approach addresses key barriers to AI
adoption in healthcare: privacy preservation, cost reduction, and accessibility
for resource-constrained environments.