RuCCoD: На пути к автоматизированному кодированию МКБ на русском языкеRuCCoD: Towards Automated ICD Coding in Russian
Данное исследование изучает возможность автоматизации клинического кодирования на русском языке, который характеризуется ограниченными ресурсами в области биомедицины. Мы представляем новый набор данных для кодирования по МКБ, включающий поля диагнозов из электронных медицинских записей (ЭМЗ), аннотированных более чем 10 000 сущностей и свыше 1 500 уникальных кодов МКБ. Этот набор данных служит эталоном для нескольких современных моделей, включая BERT, LLaMA с LoRA и RAG, с дополнительными экспериментами, исследующими трансферное обучение между доменами (от аннотаций PubMed к медицинским диагнозам) и терминологиями (от концепций UMLS к кодам МКБ). Затем мы применяем наиболее эффективную модель для маркировки внутреннего набора данных ЭМЗ, содержащего истории пациентов с 2017 по 2021 год. Наши эксперименты, проведенные на тщательно отобранном тестовом наборе, демонстрируют, что обучение с использованием автоматически предсказанных кодов приводит к значительному улучшению точности по сравнению с данными, аннотированными вручную врачами. Мы считаем, что наши результаты предоставляют ценные инсайты относительно потенциала автоматизации клинического кодирования в языках с ограниченными ресурсами, таких как русский, что может повысить клиническую эффективность и точность данных в таких контекстах.