RuCCoD: Rumo à Codificação Automatizada de CID em RussoRuCCoD: Towards Automated ICD Coding in Russian
Este estudo investiga a viabilidade de automatizar a codificação clínica em russo, uma língua com recursos biomédicos limitados. Apresentamos um novo conjunto de dados para codificação CID, que inclui campos de diagnóstico de registros eletrônicos de saúde (EHRs) anotados com mais de 10.000 entidades e mais de 1.500 códigos CID únicos. Este conjunto de dados serve como referência para vários modelos de ponta, incluindo BERT, LLaMA com LoRA e RAG, com experimentos adicionais examinando a transferência de aprendizagem entre domínios (de resumos do PubMed para diagnósticos médicos) e terminologias (de conceitos UMLS para códigos CID). Em seguida, aplicamos o modelo de melhor desempenho para rotular um conjunto de dados EHR interno contendo históricos de pacientes de 2017 a 2021. Nossos experimentos, conduzidos em um conjunto de teste cuidadosamente curado, demonstram que o treinamento com os códigos previstos automaticamente leva a uma melhoria significativa na precisão em comparação com os dados anotados manualmente por médicos. Acreditamos que nossas descobertas oferecem insights valiosos sobre o potencial de automatizar a codificação clínica em línguas com recursos limitados, como o russo, o que poderia melhorar a eficiência clínica e a precisão dos dados nesses contextos.