Именованный бенчмарк распознавания клинических сущностей

Аннотация

Этот технический отчет представляет Named Clinical Entity Recognition Benchmark для оценки языковых моделей в области здравоохранения, решая важную задачу обработки естественного языка (NLP) по извлечению структурированной информации из клинических повествований для поддержки приложений, таких как автоматизированное кодирование, идентификация когорт клинических испытаний и клиническая поддержка принятия решений. Таблица лидеров предоставляет стандартизированную платформу для оценки различных языковых моделей, включая архитектуры кодировщика и декодировщика, по их способности идентифицировать и классифицировать клинические сущности в различных медицинских областях. Используется отобранная коллекция открытых клинических наборов данных, охватывающая сущности, такие как заболевания, симптомы, медикаменты, процедуры и лабораторные измерения. Важно, что эти сущности стандартизированы в соответствии с Общей моделью данных по наблюдаемым медицинским результатам (OMOP), обеспечивая согласованность и взаимодействие между различными системами здравоохранения и наборами данных, а также всестороннюю оценку производительности модели. Производительность моделей в основном оценивается с использованием F1-меры, а также дополняется различными режимами оценки для предоставления всестороннего понимания производительности модели. В отчете также представлено краткое аналитическое изучение оцененных моделей на сегодняшний день, выделяя наблюдаемые тенденции и ограничения. Установив эту систему оценки, таблица лидеров стремится способствовать прозрачности, облегчить сравнительный анализ и стимулировать инновации в задачах распознавания клинических сущностей, решая потребность в надежных методах оценки в области NLP в здравоохранении.

English

This technical report introduces a Named Clinical Entity Recognition Benchmark for evaluating language models in healthcare, addressing the crucial natural language processing (NLP) task of extracting structured information from clinical narratives to support applications like automated coding, clinical trial cohort identification, and clinical decision support. The leaderboard provides a standardized platform for assessing diverse language models, including encoder and decoder architectures, on their ability to identify and classify clinical entities across multiple medical domains. A curated collection of openly available clinical datasets is utilized, encompassing entities such as diseases, symptoms, medications, procedures, and laboratory measurements. Importantly, these entities are standardized according to the Observational Medical Outcomes Partnership (OMOP) Common Data Model, ensuring consistency and interoperability across different healthcare systems and datasets, and a comprehensive evaluation of model performance. Performance of models is primarily assessed using the F1-score, and it is complemented by various assessment modes to provide comprehensive insights into model performance. The report also includes a brief analysis of models evaluated to date, highlighting observed trends and limitations. By establishing this benchmarking framework, the leaderboard aims to promote transparency, facilitate comparative analyses, and drive innovation in clinical entity recognition tasks, addressing the need for robust evaluation methods in healthcare NLP.