RuCCoD: Verso la Codifica ICD Automatizzata in RussoRuCCoD: Towards Automated ICD Coding in Russian
Questo studio indaga la fattibilità dell'automatizzazione della codifica clinica in russo, una lingua con risorse biomediche limitate. Presentiamo un nuovo dataset per la codifica ICD, che include campi di diagnosi tratti da cartelle cliniche elettroniche (EHR) annotati con oltre 10.000 entità e più di 1.500 codici ICD unici. Questo dataset funge da benchmark per diversi modelli all'avanguardia, tra cui BERT, LLaMA con LoRA e RAG, con ulteriori esperimenti che esaminano il trasferimento di apprendimento tra domini (da abstract di PubMed a diagnosi mediche) e terminologie (da concetti UMLS a codici ICD). Successivamente, applichiamo il modello con le migliori prestazioni per etichettare un dataset EHR interno contenente storie cliniche di pazienti dal 2017 al 2021. I nostri esperimenti, condotti su un set di test accuratamente curato, dimostrano che l'addestramento con i codici predetti automaticamente porta a un miglioramento significativo dell'accuratezza rispetto ai dati annotati manualmente dai medici. Riteniamo che i nostri risultati offrano preziose intuizioni sul potenziale dell'automatizzazione della codifica clinica in lingue con risorse limitate come il russo, che potrebbe migliorare l'efficienza clinica e l'accuratezza dei dati in questi contesti.