RuCCoD: Op weg naar geautomatiseerde ICD-codering in het Russisch
RuCCoD: Towards Automated ICD Coding in Russian
February 28, 2025
Auteurs: Aleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina
cs.AI
Samenvatting
Dit onderzoek onderzoekt de haalbaarheid van het automatiseren van klinische codering in het Russisch, een taal met beperkte biomedische bronnen. We presenteren een nieuwe dataset voor ICD-codering, die diagnosevelden uit elektronische patiëntendossiers (EHR's) bevat, geannoteerd met meer dan 10.000 entiteiten en meer dan 1.500 unieke ICD-codes. Deze dataset dient als benchmark voor verschillende state-of-the-art modellen, waaronder BERT, LLaMA met LoRA en RAG, met aanvullende experimenten die transfer learning over domeinen (van PubMed-samenvattingen naar medische diagnoses) en terminologieën (van UMLS-concepten naar ICD-codes) onderzoeken. Vervolgens passen we het best presterende model toe om een interne EHR-dataset te labelen die patiëntgeschiedenissen van 2017 tot 2021 bevat. Onze experimenten, uitgevoerd op een zorgvuldig samengestelde testset, tonen aan dat training met de automatisch voorspelde codes leidt tot een significante verbetering in nauwkeurigheid vergeleken met handmatig geannoteerde data van artsen. Wij geloven dat onze bevindingen waardevolle inzichten bieden in het potentieel voor het automatiseren van klinische codering in talen met beperkte bronnen zoals het Russisch, wat de klinische efficiëntie en data-nauwkeurigheid in deze contexten zou kunnen verbeteren.
English
This study investigates the feasibility of automating clinical coding in
Russian, a language with limited biomedical resources. We present a new dataset
for ICD coding, which includes diagnosis fields from electronic health records
(EHRs) annotated with over 10,000 entities and more than 1,500 unique ICD
codes. This dataset serves as a benchmark for several state-of-the-art models,
including BERT, LLaMA with LoRA, and RAG, with additional experiments examining
transfer learning across domains (from PubMed abstracts to medical diagnosis)
and terminologies (from UMLS concepts to ICD codes). We then apply the
best-performing model to label an in-house EHR dataset containing patient
histories from 2017 to 2021. Our experiments, conducted on a carefully curated
test set, demonstrate that training with the automated predicted codes leads to
a significant improvement in accuracy compared to manually annotated data from
physicians. We believe our findings offer valuable insights into the potential
for automating clinical coding in resource-limited languages like Russian,
which could enhance clinical efficiency and data accuracy in these contexts.Summary
AI-Generated Summary