RuCCoD:邁向俄語ICD編碼的自動化RuCCoD: Towards Automated ICD Coding in Russian
本研究探討了在生物醫學資源有限的俄語環境中,自動化臨床編碼的可行性。我們提出了一個新的ICD編碼數據集,該數據集包含來自電子健康記錄(EHRs)的診斷字段,並標註了超過10,000個實體和1,500多個獨特的ICD代碼。此數據集作為多種先進模型的基準,包括BERT、帶有LoRA的LLaMA以及RAG,並進行了額外的實驗,考察跨領域(從PubMed摘要到醫學診斷)和跨術語(從UMLS概念到ICD代碼)的遷移學習。隨後,我們將表現最佳的模型應用於標註一個內部EHR數據集,該數據集包含2017年至2021年的患者病史。我們在精心挑選的測試集上進行的實驗表明,與醫生手動註釋的數據相比,使用自動預測代碼進行訓練能顯著提高準確性。我們相信,這些發現為在資源有限的語言(如俄語)中自動化臨床編碼的潛力提供了寶貴的見解,這可能提升這些情境下的臨床效率和數據準確性。