ChatPaper.aiChatPaper

Préserver la confidentialité, accroître l'accessibilité et réduire les coûts : un modèle d'intelligence artificielle embarqué pour la transcription médicale et la génération de notes

Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation

July 3, 2025
papers.authors: Johnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi
cs.AI

papers.abstract

Contexte : La documentation clinique représente une charge importante pour les professionnels de santé, les médecins passant jusqu'à 2 heures par jour sur des tâches administratives. Les récents progrès des modèles de langage de grande taille (LLMs) offrent des solutions prometteuses, mais les préoccupations liées à la confidentialité et les exigences computationnelles limitent leur adoption dans les milieux de santé. Objectif : Développer et évaluer un système de transcription médicale préservant la confidentialité et fonctionnant sur l'appareil, utilisant un modèle Llama 3.2 1B affiné, capable de générer des notes médicales structurées à partir de transcriptions médicales tout en maintenant une souveraineté totale des données directement dans le navigateur. Méthodes : Nous avons affiné un modèle Llama 3.2 1B en utilisant l'affinage paramétrique efficace (PEFT) avec LoRA sur 1 500 paires synthétiques de transcriptions médicales et de notes structurées. Le modèle a été évalué par rapport au modèle de base Llama 3.2 1B sur deux ensembles de données : 100 transcriptions endocrinologiques et 140 cas modifiés du benchmark ACI. L'évaluation a employé des métriques statistiques (ROUGE, BERTScore, BLEURT) et des évaluations LLM-comme-juge sur plusieurs dimensions de qualité clinique. Résultats : Le modèle OnDevice affiné a démontré des améliorations substantielles par rapport au modèle de base. Sur le benchmark ACI, les scores ROUGE-1 sont passés de 0,346 à 0,496, tandis que le F1 de BERTScore est passé de 0,832 à 0,866. Les évaluations de qualité clinique ont montré une réduction marquée des hallucinations majeures (de 85 à 35 cas) et une amélioration de l'exactitude factuelle (de 2,81 à 3,54 sur une échelle de 5 points). Des améliorations similaires ont été observées sur l'ensemble de données d'évaluation interne, avec des scores composites passant de 3,13 à 4,43 (+41,5 %). Conclusions : L'affinage de LLMs compacts pour la transcription médicale apporte des améliorations cliniquement significatives tout en permettant un déploiement complet sur l'appareil dans le navigateur. Cette approche aborde les principaux obstacles à l'adoption de l'IA en santé : préservation de la confidentialité, réduction des coûts et accessibilité pour les environnements à ressources limitées.
English
Background: Clinical documentation represents a significant burden for healthcare providers, with physicians spending up to 2 hours daily on administrative tasks. Recent advances in large language models (LLMs) offer promising solutions, but privacy concerns and computational requirements limit their adoption in healthcare settings. Objective: To develop and evaluate a privacy-preserving, on-device medical transcription system using a fine-tuned Llama 3.2 1B model capable of generating structured medical notes from medical transcriptions while maintaining complete data sovereignty entirely in the browser. Methods: We fine-tuned a Llama 3.2 1B model using Parameter-Efficient Fine-Tuning (PEFT) with LoRA on 1,500 synthetic medical transcription-to-structured note pairs. The model was evaluated against the base Llama 3.2 1B on two datasets: 100 endocrinology transcripts and 140 modified ACI benchmark cases. Evaluation employed both statistical metrics (ROUGE, BERTScore, BLEURT) and LLM-as-judge assessments across multiple clinical quality dimensions. Results: The fine-tuned OnDevice model demonstrated substantial improvements over the base model. On the ACI benchmark, ROUGE-1 scores increased from 0.346 to 0.496, while BERTScore F1 improved from 0.832 to 0.866. Clinical quality assessments showed marked reduction in major hallucinations (from 85 to 35 cases) and enhanced factual correctness (2.81 to 3.54 on 5-point scale). Similar improvements were observed on the internal evaluation dataset, with composite scores increasing from 3.13 to 4.43 (+41.5%). Conclusions: Fine-tuning compact LLMs for medical transcription yields clinically meaningful improvements while enabling complete on-device browser deployment. This approach addresses key barriers to AI adoption in healthcare: privacy preservation, cost reduction, and accessibility for resource-constrained environments.
PDF81July 8, 2025