RuCCoD: Auf dem Weg zur automatisierten ICD-Kodierung im RussischenRuCCoD: Towards Automated ICD Coding in Russian
Diese Studie untersucht die Machbarkeit der Automatisierung der klinischen Kodierung in Russisch, einer Sprache mit begrenzten biomedizinischen Ressourcen. Wir stellen einen neuen Datensatz für die ICD-Kodierung vor, der Diagnosefelder aus elektronischen Gesundheitsakten (EHRs) enthält, die mit über 10.000 Entitäten und mehr als 1.500 eindeutigen ICD-Codes annotiert sind. Dieser Datensatz dient als Benchmark für mehrere state-of-the-art Modelle, darunter BERT, LLaMA mit LoRA und RAG, mit zusätzlichen Experimenten, die Transferlernen über Domänen (von PubMed-Abstracts zu medizinischen Diagnosen) und Terminologien (von UMLS-Konzepten zu ICD-Codes) untersuchen. Anschließend wenden wir das leistungsstärkste Modell an, um einen internen EHR-Datensatz mit Patientengeschichten von 2017 bis 2021 zu beschriften. Unsere Experimente, die auf einem sorgfältig kuratierten Testdatensatz durchgeführt wurden, zeigen, dass das Training mit den automatisch vorhergesagten Codes zu einer signifikanten Verbesserung der Genauigkeit im Vergleich zu manuell von Ärzten annotierten Daten führt. Wir glauben, dass unsere Erkenntnisse wertvolle Einblicke in das Potenzial der Automatisierung der klinischen Kodierung in ressourcenbeschränkten Sprachen wie Russisch bieten, was die klinische Effizienz und Datenqualität in diesen Kontexten verbessern könnte.