RuCCoD: Auf dem Weg zur automatisierten ICD-Kodierung im Russischen
RuCCoD: Towards Automated ICD Coding in Russian
February 28, 2025
Autoren: Aleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina
cs.AI
Zusammenfassung
Diese Studie untersucht die Machbarkeit der Automatisierung der klinischen Kodierung in Russisch, einer Sprache mit begrenzten biomedizinischen Ressourcen. Wir stellen einen neuen Datensatz für die ICD-Kodierung vor, der Diagnosefelder aus elektronischen Gesundheitsakten (EHRs) enthält, die mit über 10.000 Entitäten und mehr als 1.500 eindeutigen ICD-Codes annotiert sind. Dieser Datensatz dient als Benchmark für mehrere state-of-the-art Modelle, darunter BERT, LLaMA mit LoRA und RAG, mit zusätzlichen Experimenten, die Transferlernen über Domänen (von PubMed-Abstracts zu medizinischen Diagnosen) und Terminologien (von UMLS-Konzepten zu ICD-Codes) untersuchen. Anschließend wenden wir das leistungsstärkste Modell an, um einen internen EHR-Datensatz mit Patientengeschichten von 2017 bis 2021 zu beschriften. Unsere Experimente, die auf einem sorgfältig kuratierten Testdatensatz durchgeführt wurden, zeigen, dass das Training mit den automatisch vorhergesagten Codes zu einer signifikanten Verbesserung der Genauigkeit im Vergleich zu manuell von Ärzten annotierten Daten führt. Wir glauben, dass unsere Erkenntnisse wertvolle Einblicke in das Potenzial der Automatisierung der klinischen Kodierung in ressourcenbeschränkten Sprachen wie Russisch bieten, was die klinische Effizienz und Datenqualität in diesen Kontexten verbessern könnte.
English
This study investigates the feasibility of automating clinical coding in
Russian, a language with limited biomedical resources. We present a new dataset
for ICD coding, which includes diagnosis fields from electronic health records
(EHRs) annotated with over 10,000 entities and more than 1,500 unique ICD
codes. This dataset serves as a benchmark for several state-of-the-art models,
including BERT, LLaMA with LoRA, and RAG, with additional experiments examining
transfer learning across domains (from PubMed abstracts to medical diagnosis)
and terminologies (from UMLS concepts to ICD codes). We then apply the
best-performing model to label an in-house EHR dataset containing patient
histories from 2017 to 2021. Our experiments, conducted on a carefully curated
test set, demonstrate that training with the automated predicted codes leads to
a significant improvement in accuracy compared to manually annotated data from
physicians. We believe our findings offer valuable insights into the potential
for automating clinical coding in resource-limited languages like Russian,
which could enhance clinical efficiency and data accuracy in these contexts.Summary
AI-Generated Summary