ChatPaper.aiChatPaper

RuCCoD: Verso la Codifica ICD Automatizzata in Russo

RuCCoD: Towards Automated ICD Coding in Russian

February 28, 2025
Autori: Aleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina
cs.AI

Abstract

Questo studio indaga la fattibilità dell'automatizzazione della codifica clinica in russo, una lingua con risorse biomediche limitate. Presentiamo un nuovo dataset per la codifica ICD, che include campi di diagnosi tratti da cartelle cliniche elettroniche (EHR) annotati con oltre 10.000 entità e più di 1.500 codici ICD unici. Questo dataset funge da benchmark per diversi modelli all'avanguardia, tra cui BERT, LLaMA con LoRA e RAG, con ulteriori esperimenti che esaminano il trasferimento di apprendimento tra domini (da abstract di PubMed a diagnosi mediche) e terminologie (da concetti UMLS a codici ICD). Successivamente, applichiamo il modello con le migliori prestazioni per etichettare un dataset EHR interno contenente storie cliniche di pazienti dal 2017 al 2021. I nostri esperimenti, condotti su un set di test accuratamente curato, dimostrano che l'addestramento con i codici predetti automaticamente porta a un miglioramento significativo dell'accuratezza rispetto ai dati annotati manualmente dai medici. Riteniamo che i nostri risultati offrano preziose intuizioni sul potenziale dell'automatizzazione della codifica clinica in lingue con risorse limitate come il russo, che potrebbe migliorare l'efficienza clinica e l'accuratezza dei dati in questi contesti.
English
This study investigates the feasibility of automating clinical coding in Russian, a language with limited biomedical resources. We present a new dataset for ICD coding, which includes diagnosis fields from electronic health records (EHRs) annotated with over 10,000 entities and more than 1,500 unique ICD codes. This dataset serves as a benchmark for several state-of-the-art models, including BERT, LLaMA with LoRA, and RAG, with additional experiments examining transfer learning across domains (from PubMed abstracts to medical diagnosis) and terminologies (from UMLS concepts to ICD codes). We then apply the best-performing model to label an in-house EHR dataset containing patient histories from 2017 to 2021. Our experiments, conducted on a carefully curated test set, demonstrate that training with the automated predicted codes leads to a significant improvement in accuracy compared to manually annotated data from physicians. We believe our findings offer valuable insights into the potential for automating clinical coding in resource-limited languages like Russian, which could enhance clinical efficiency and data accuracy in these contexts.

Summary

AI-Generated Summary

PDF1332March 10, 2025