명명된 임상 개체 인식 벤치마크
Named Clinical Entity Recognition Benchmark
October 7, 2024
저자: Wadood M Abdul, Marco AF Pimentel, Muhammad Umar Salman, Tathagata Raha, Clément Christophe, Praveen K Kanithi, Nasir Hayat, Ronnie Rajan, Shadab Khan
cs.AI
초록
이 기술 보고서는 의료 분야의 언어 모델을 평가하기 위한 Named Clinical Entity Recognition Benchmark를 소개하며, 임상 내러티브에서 구조화된 정보를 추출하는 중요한 자연어 처리(NLP) 작업에 대응하여 자동 코딩, 임상 시험 집단 식별 및 임상 의사 결정 지원과 같은 응용 프로그램을 지원합니다.
리더보드는 인코더 및 디코더 아키텍처를 포함한 다양한 언어 모델의 임상 엔티티를 식별하고 분류하는 능력을 평가하기 위한 표준화된 플랫폼을 제공합니다. 공개적으로 이용 가능한 임상 데이터셋의 선별된 컬렉션을 활용하여, 질병, 증상, 약물, 수술 및 검사 측정치와 같은 엔티티를 포함하며, 이러한 엔티티들은 Observational Medical Outcomes Partnership (OMOP) 공통 데이터 모델에 따라 표준화되어 다양한 의료 시스템 및 데이터셋 간의 일관성과 상호 운용성을 보장하고 모델 성능의 포괄적인 평가를 제공합니다. 모델의 성능은 주로 F1 점수를 사용하여 평가되며, 모델 성능에 대한 포괄적인 통찰력을 제공하기 위해 다양한 평가 모드로 보완됩니다. 보고서에는 현재까지 평가된 모델의 간단한 분석도 포함되어 있어 관찰된 트렌드와 한계를 강조합니다.
이 벤치마킹 프레임워크를 수립함으로써, 리더보드는 의료 NLP에서 견고한 평가 방법의 필요성을 다루며, 투명성을 촉진하고 비교 분석을 용이하게 하며 임상 엔티티 인식 작업에서 혁신을 촉진하기 위한 목적을 가지고 있습니다.
English
This technical report introduces a Named Clinical Entity Recognition
Benchmark for evaluating language models in healthcare, addressing the crucial
natural language processing (NLP) task of extracting structured information
from clinical narratives to support applications like automated coding,
clinical trial cohort identification, and clinical decision support.
The leaderboard provides a standardized platform for assessing diverse
language models, including encoder and decoder architectures, on their ability
to identify and classify clinical entities across multiple medical domains. A
curated collection of openly available clinical datasets is utilized,
encompassing entities such as diseases, symptoms, medications, procedures, and
laboratory measurements. Importantly, these entities are standardized according
to the Observational Medical Outcomes Partnership (OMOP) Common Data Model,
ensuring consistency and interoperability across different healthcare systems
and datasets, and a comprehensive evaluation of model performance. Performance
of models is primarily assessed using the F1-score, and it is complemented by
various assessment modes to provide comprehensive insights into model
performance. The report also includes a brief analysis of models evaluated to
date, highlighting observed trends and limitations.
By establishing this benchmarking framework, the leaderboard aims to promote
transparency, facilitate comparative analyses, and drive innovation in clinical
entity recognition tasks, addressing the need for robust evaluation methods in
healthcare NLP.Summary
AI-Generated Summary