RuCCoD: ロシア語におけるICDコーディングの自動化に向けてRuCCoD: Towards Automated ICD Coding in Russian
本研究は、生物医学的リソースが限られた言語であるロシア語における臨床コーディングの自動化の実現可能性を調査する。我々は、電子健康記録(EHR)の診断フィールドを含む新しいICDコーディング用データセットを提示し、10,000以上のエンティティと1,500以上のユニークなICDコードが注釈付けされている。このデータセットは、BERT、LoRAを適用したLLaMA、RAGなど、いくつかの最先端モデルのベンチマークとして機能し、ドメイン間(PubMedアブストラクトから医療診断へ)および用語体系間(UMLS概念からICDコードへ)の転移学習を検証する追加実験も行った。その後、最も性能の高いモデルを適用し、2017年から2021年までの患者履歴を含む社内EHRデータセットにラベル付けを行った。慎重に選定されたテストセットで実施した実験では、自動予測コードを用いたトレーニングが、医師による手動注釈データと比較して精度の大幅な向上をもたらすことを示した。我々は、本研究の結果が、ロシア語のようなリソースが限られた言語における臨床コーディングの自動化の可能性について貴重な知見を提供し、これらの文脈における臨床効率とデータ精度の向上に寄与すると考えている。