ChatPaper.aiChatPaper

RuCCoD : Vers un codage automatisé de la CIM en russe

RuCCoD: Towards Automated ICD Coding in Russian

February 28, 2025
Auteurs: Aleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina
cs.AI

Résumé

Cette étude explore la faisabilité de l'automatisation du codage clinique en russe, une langue disposant de ressources biomédicales limitées. Nous présentons un nouveau jeu de données pour le codage CIM, qui inclut des champs de diagnostic provenant de dossiers médicaux électroniques (DME) annotés avec plus de 10 000 entités et plus de 1 500 codes CIM uniques. Ce jeu de données sert de référence pour plusieurs modèles de pointe, notamment BERT, LLaMA avec LoRA et RAG, avec des expériences supplémentaires examinant le transfert d'apprentissage entre domaines (des résumés PubMed aux diagnostics médicaux) et terminologies (des concepts UMLS aux codes CIM). Nous appliquons ensuite le modèle le plus performant pour annoter un jeu de données DME interne contenant les antécédents des patients de 2017 à 2021. Nos expériences, menées sur un ensemble de test soigneusement sélectionné, démontrent que l'entraînement avec les codes prédits automatiquement entraîne une amélioration significative de la précision par rapport aux données annotées manuellement par les médecins. Nous pensons que nos résultats offrent des perspectives précieuses sur le potentiel d'automatisation du codage clinique dans des langues à ressources limitées comme le russe, ce qui pourrait améliorer l'efficacité clinique et la précision des données dans ces contextes.
English
This study investigates the feasibility of automating clinical coding in Russian, a language with limited biomedical resources. We present a new dataset for ICD coding, which includes diagnosis fields from electronic health records (EHRs) annotated with over 10,000 entities and more than 1,500 unique ICD codes. This dataset serves as a benchmark for several state-of-the-art models, including BERT, LLaMA with LoRA, and RAG, with additional experiments examining transfer learning across domains (from PubMed abstracts to medical diagnosis) and terminologies (from UMLS concepts to ICD codes). We then apply the best-performing model to label an in-house EHR dataset containing patient histories from 2017 to 2021. Our experiments, conducted on a carefully curated test set, demonstrate that training with the automated predicted codes leads to a significant improvement in accuracy compared to manually annotated data from physicians. We believe our findings offer valuable insights into the potential for automating clinical coding in resource-limited languages like Russian, which could enhance clinical efficiency and data accuracy in these contexts.

Summary

AI-Generated Summary

PDF1332March 10, 2025