ChatPaper.aiChatPaper

RuCCoD: Hacia la Codificación Automatizada de CIE en Ruso

RuCCoD: Towards Automated ICD Coding in Russian

February 28, 2025
Autores: Aleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina
cs.AI

Resumen

Este estudio investiga la viabilidad de automatizar la codificación clínica en ruso, un idioma con recursos biomédicos limitados. Presentamos un nuevo conjunto de datos para la codificación CIE, que incluye campos de diagnóstico de registros electrónicos de salud (EHR) anotados con más de 10,000 entidades y más de 1,500 códigos CIE únicos. Este conjunto de datos sirve como punto de referencia para varios modelos de vanguardia, incluyendo BERT, LLaMA con LoRA y RAG, con experimentos adicionales que examinan la transferencia de aprendizaje entre dominios (desde resúmenes de PubMed hasta diagnósticos médicos) y terminologías (desde conceptos UMLS hasta códigos CIE). Luego, aplicamos el modelo de mejor rendimiento para etiquetar un conjunto de datos interno de EHR que contiene historiales de pacientes desde 2017 hasta 2021. Nuestros experimentos, realizados en un conjunto de prueba cuidadosamente curado, demuestran que el entrenamiento con los códigos predichos automáticamente conduce a una mejora significativa en la precisión en comparación con los datos anotados manualmente por médicos. Creemos que nuestros hallazgos ofrecen información valiosa sobre el potencial para automatizar la codificación clínica en idiomas con recursos limitados como el ruso, lo que podría mejorar la eficiencia clínica y la precisión de los datos en estos contextos.
English
This study investigates the feasibility of automating clinical coding in Russian, a language with limited biomedical resources. We present a new dataset for ICD coding, which includes diagnosis fields from electronic health records (EHRs) annotated with over 10,000 entities and more than 1,500 unique ICD codes. This dataset serves as a benchmark for several state-of-the-art models, including BERT, LLaMA with LoRA, and RAG, with additional experiments examining transfer learning across domains (from PubMed abstracts to medical diagnosis) and terminologies (from UMLS concepts to ICD codes). We then apply the best-performing model to label an in-house EHR dataset containing patient histories from 2017 to 2021. Our experiments, conducted on a carefully curated test set, demonstrate that training with the automated predicted codes leads to a significant improvement in accuracy compared to manually annotated data from physicians. We believe our findings offer valuable insights into the potential for automating clinical coding in resource-limited languages like Russian, which could enhance clinical efficiency and data accuracy in these contexts.

Summary

AI-Generated Summary

PDF1332March 10, 2025