RuCCoD: ロシア語におけるICDコーディングの自動化に向けて
RuCCoD: Towards Automated ICD Coding in Russian
February 28, 2025
著者: Aleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina
cs.AI
要旨
本研究は、生物医学的リソースが限られた言語であるロシア語における臨床コーディングの自動化の実現可能性を調査する。我々は、電子健康記録(EHR)の診断フィールドを含む新しいICDコーディング用データセットを提示し、10,000以上のエンティティと1,500以上のユニークなICDコードが注釈付けされている。このデータセットは、BERT、LoRAを適用したLLaMA、RAGなど、いくつかの最先端モデルのベンチマークとして機能し、ドメイン間(PubMedアブストラクトから医療診断へ)および用語体系間(UMLS概念からICDコードへ)の転移学習を検証する追加実験も行った。その後、最も性能の高いモデルを適用し、2017年から2021年までの患者履歴を含む社内EHRデータセットにラベル付けを行った。慎重に選定されたテストセットで実施した実験では、自動予測コードを用いたトレーニングが、医師による手動注釈データと比較して精度の大幅な向上をもたらすことを示した。我々は、本研究の結果が、ロシア語のようなリソースが限られた言語における臨床コーディングの自動化の可能性について貴重な知見を提供し、これらの文脈における臨床効率とデータ精度の向上に寄与すると考えている。
English
This study investigates the feasibility of automating clinical coding in
Russian, a language with limited biomedical resources. We present a new dataset
for ICD coding, which includes diagnosis fields from electronic health records
(EHRs) annotated with over 10,000 entities and more than 1,500 unique ICD
codes. This dataset serves as a benchmark for several state-of-the-art models,
including BERT, LLaMA with LoRA, and RAG, with additional experiments examining
transfer learning across domains (from PubMed abstracts to medical diagnosis)
and terminologies (from UMLS concepts to ICD codes). We then apply the
best-performing model to label an in-house EHR dataset containing patient
histories from 2017 to 2021. Our experiments, conducted on a carefully curated
test set, demonstrate that training with the automated predicted codes leads to
a significant improvement in accuracy compared to manually annotated data from
physicians. We believe our findings offer valuable insights into the potential
for automating clinical coding in resource-limited languages like Russian,
which could enhance clinical efficiency and data accuracy in these contexts.Summary
AI-Generated Summary