ChatPaper.aiChatPaper

RuCCoD: Rumo à Codificação Automatizada de CID em Russo

RuCCoD: Towards Automated ICD Coding in Russian

February 28, 2025
Autores: Aleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina
cs.AI

Resumo

Este estudo investiga a viabilidade de automatizar a codificação clínica em russo, uma língua com recursos biomédicos limitados. Apresentamos um novo conjunto de dados para codificação CID, que inclui campos de diagnóstico de registros eletrônicos de saúde (EHRs) anotados com mais de 10.000 entidades e mais de 1.500 códigos CID únicos. Este conjunto de dados serve como referência para vários modelos de ponta, incluindo BERT, LLaMA com LoRA e RAG, com experimentos adicionais examinando a transferência de aprendizagem entre domínios (de resumos do PubMed para diagnósticos médicos) e terminologias (de conceitos UMLS para códigos CID). Em seguida, aplicamos o modelo de melhor desempenho para rotular um conjunto de dados EHR interno contendo históricos de pacientes de 2017 a 2021. Nossos experimentos, conduzidos em um conjunto de teste cuidadosamente curado, demonstram que o treinamento com os códigos previstos automaticamente leva a uma melhoria significativa na precisão em comparação com os dados anotados manualmente por médicos. Acreditamos que nossas descobertas oferecem insights valiosos sobre o potencial de automatizar a codificação clínica em línguas com recursos limitados, como o russo, o que poderia melhorar a eficiência clínica e a precisão dos dados nesses contextos.
English
This study investigates the feasibility of automating clinical coding in Russian, a language with limited biomedical resources. We present a new dataset for ICD coding, which includes diagnosis fields from electronic health records (EHRs) annotated with over 10,000 entities and more than 1,500 unique ICD codes. This dataset serves as a benchmark for several state-of-the-art models, including BERT, LLaMA with LoRA, and RAG, with additional experiments examining transfer learning across domains (from PubMed abstracts to medical diagnosis) and terminologies (from UMLS concepts to ICD codes). We then apply the best-performing model to label an in-house EHR dataset containing patient histories from 2017 to 2021. Our experiments, conducted on a carefully curated test set, demonstrate that training with the automated predicted codes leads to a significant improvement in accuracy compared to manually annotated data from physicians. We believe our findings offer valuable insights into the potential for automating clinical coding in resource-limited languages like Russian, which could enhance clinical efficiency and data accuracy in these contexts.

Summary

AI-Generated Summary

PDF1332March 10, 2025