RuCCoD: Hacia la Codificación Automatizada de CIE en RusoRuCCoD: Towards Automated ICD Coding in Russian
Este estudio investiga la viabilidad de automatizar la codificación clínica en ruso, un idioma con recursos biomédicos limitados. Presentamos un nuevo conjunto de datos para la codificación CIE, que incluye campos de diagnóstico de registros electrónicos de salud (EHR) anotados con más de 10,000 entidades y más de 1,500 códigos CIE únicos. Este conjunto de datos sirve como punto de referencia para varios modelos de vanguardia, incluyendo BERT, LLaMA con LoRA y RAG, con experimentos adicionales que examinan la transferencia de aprendizaje entre dominios (desde resúmenes de PubMed hasta diagnósticos médicos) y terminologías (desde conceptos UMLS hasta códigos CIE). Luego, aplicamos el modelo de mejor rendimiento para etiquetar un conjunto de datos interno de EHR que contiene historiales de pacientes desde 2017 hasta 2021. Nuestros experimentos, realizados en un conjunto de prueba cuidadosamente curado, demuestran que el entrenamiento con los códigos predichos automáticamente conduce a una mejora significativa en la precisión en comparación con los datos anotados manualmente por médicos. Creemos que nuestros hallazgos ofrecen información valiosa sobre el potencial para automatizar la codificación clínica en idiomas con recursos limitados como el ruso, lo que podría mejorar la eficiencia clínica y la precisión de los datos en estos contextos.