ChatPaper.aiChatPaper

RuCCoD: На пути к автоматизированному кодированию МКБ на русском языке

RuCCoD: Towards Automated ICD Coding in Russian

February 28, 2025
Авторы: Aleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina
cs.AI

Аннотация

Данное исследование изучает возможность автоматизации клинического кодирования на русском языке, который характеризуется ограниченными ресурсами в области биомедицины. Мы представляем новый набор данных для кодирования по МКБ, включающий поля диагнозов из электронных медицинских записей (ЭМЗ), аннотированных более чем 10 000 сущностей и свыше 1 500 уникальных кодов МКБ. Этот набор данных служит эталоном для нескольких современных моделей, включая BERT, LLaMA с LoRA и RAG, с дополнительными экспериментами, исследующими трансферное обучение между доменами (от аннотаций PubMed к медицинским диагнозам) и терминологиями (от концепций UMLS к кодам МКБ). Затем мы применяем наиболее эффективную модель для маркировки внутреннего набора данных ЭМЗ, содержащего истории пациентов с 2017 по 2021 год. Наши эксперименты, проведенные на тщательно отобранном тестовом наборе, демонстрируют, что обучение с использованием автоматически предсказанных кодов приводит к значительному улучшению точности по сравнению с данными, аннотированными вручную врачами. Мы считаем, что наши результаты предоставляют ценные инсайты относительно потенциала автоматизации клинического кодирования в языках с ограниченными ресурсами, таких как русский, что может повысить клиническую эффективность и точность данных в таких контекстах.
English
This study investigates the feasibility of automating clinical coding in Russian, a language with limited biomedical resources. We present a new dataset for ICD coding, which includes diagnosis fields from electronic health records (EHRs) annotated with over 10,000 entities and more than 1,500 unique ICD codes. This dataset serves as a benchmark for several state-of-the-art models, including BERT, LLaMA with LoRA, and RAG, with additional experiments examining transfer learning across domains (from PubMed abstracts to medical diagnosis) and terminologies (from UMLS concepts to ICD codes). We then apply the best-performing model to label an in-house EHR dataset containing patient histories from 2017 to 2021. Our experiments, conducted on a carefully curated test set, demonstrate that training with the automated predicted codes leads to a significant improvement in accuracy compared to manually annotated data from physicians. We believe our findings offer valuable insights into the potential for automating clinical coding in resource-limited languages like Russian, which could enhance clinical efficiency and data accuracy in these contexts.

Summary

AI-Generated Summary

PDF1332March 10, 2025