RuCCoD: 러시아어 ICD 코딩 자동화를 향하여
RuCCoD: Towards Automated ICD Coding in Russian
February 28, 2025
저자: Aleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina
cs.AI
초록
본 연구는 생의학 자원이 제한된 언어인 러시아어에서 임상 코딩 자동화의 가능성을 탐구합니다. 우리는 전자의무기록(EHR)의 진단 필드를 포함하며 10,000개 이상의 개체와 1,500개 이상의 고유 ICD 코드로 주석 처리된 새로운 ICD 코딩 데이터셋을 제시합니다. 이 데이터셋은 BERT, LoRA를 적용한 LLaMA, RAG 등 여러 최신 모델의 벤치마크로 활용되며, 추가 실험을 통해 도메인 간(PubMed 초록에서 의학 진단으로) 및 용어 체계 간(UMLS 개념에서 ICD 코드로) 전이 학습을 검토합니다. 그런 다음 최고 성능을 보인 모델을 적용하여 2017년부터 2021년까지의 환자 기록을 포함한 내부 EHR 데이터셋에 레이블을 지정합니다. 신중하게 선별된 테스트 세트에서 수행된 실험 결과, 자동으로 예측된 코드를 사용한 학습이 의사가 수동으로 주석 처리한 데이터에 비해 정확도에서 상당한 개선을 보여줍니다. 우리는 이러한 연구 결과가 러시아어와 같은 자원이 제한된 언어에서 임상 코딩 자동화의 잠재력에 대한 유용한 통찰을 제공하며, 이러한 환경에서 임상 효율성과 데이터 정확성을 향상시킬 수 있을 것으로 믿습니다.
English
This study investigates the feasibility of automating clinical coding in
Russian, a language with limited biomedical resources. We present a new dataset
for ICD coding, which includes diagnosis fields from electronic health records
(EHRs) annotated with over 10,000 entities and more than 1,500 unique ICD
codes. This dataset serves as a benchmark for several state-of-the-art models,
including BERT, LLaMA with LoRA, and RAG, with additional experiments examining
transfer learning across domains (from PubMed abstracts to medical diagnosis)
and terminologies (from UMLS concepts to ICD codes). We then apply the
best-performing model to label an in-house EHR dataset containing patient
histories from 2017 to 2021. Our experiments, conducted on a carefully curated
test set, demonstrate that training with the automated predicted codes leads to
a significant improvement in accuracy compared to manually annotated data from
physicians. We believe our findings offer valuable insights into the potential
for automating clinical coding in resource-limited languages like Russian,
which could enhance clinical efficiency and data accuracy in these contexts.Summary
AI-Generated Summary