名前付き臨床エンティティ認識ベンチマーク
Named Clinical Entity Recognition Benchmark
October 7, 2024
著者: Wadood M Abdul, Marco AF Pimentel, Muhammad Umar Salman, Tathagata Raha, Clément Christophe, Praveen K Kanithi, Nasir Hayat, Ronnie Rajan, Shadab Khan
cs.AI
要旨
この技術レポートは、医療分野における言語モデルの評価のためのNamed Clinical Entity Recognition Benchmarkを紹介し、臨床ナラティブから構造化された情報を抽出するという重要な自然言語処理(NLP)タスクを支援するため、自動コーディング、臨床試験コホートの同定、臨床意思決定支援などのアプリケーションを対象としています。
リーダーボードは、エンコーダーおよびデコーダーアーキテクチャを含む多様な言語モデルの評価のための標準化されたプラットフォームを提供し、これらのモデルが複数の医療領域で臨床エンティティを識別および分類する能力を評価します。公開されている臨床データセットの厳選されたコレクションが利用され、疾患、症状、医薬品、手順、および検査結果などのエンティティが包括されています。これらのエンティティは、異なる医療システムやデータセット間での一貫性と相互運用性を確保するために、Observational Medical Outcomes Partnership(OMOP)Common Data Modelに準拠して標準化されており、モデルのパフォーマンスの包括的な評価が行われます。モデルのパフォーマンスは主にF1スコアを用いて評価され、モデルのパフォーマンスに関する包括的な洞察を提供するためにさまざまな評価モードが補完されます。レポートには、これまでに評価されたモデルの簡単な分析も含まれており、観察されたトレンドや制約が強調されています。
このベンチマークフレームワークを確立することで、リーダーボードは透明性を促進し、比較分析を容易にし、医療NLPにおける堅牢な評価方法の必要性に対処する臨床エンティティ認識タスクにおける革新を促進することを目指しています。
English
This technical report introduces a Named Clinical Entity Recognition
Benchmark for evaluating language models in healthcare, addressing the crucial
natural language processing (NLP) task of extracting structured information
from clinical narratives to support applications like automated coding,
clinical trial cohort identification, and clinical decision support.
The leaderboard provides a standardized platform for assessing diverse
language models, including encoder and decoder architectures, on their ability
to identify and classify clinical entities across multiple medical domains. A
curated collection of openly available clinical datasets is utilized,
encompassing entities such as diseases, symptoms, medications, procedures, and
laboratory measurements. Importantly, these entities are standardized according
to the Observational Medical Outcomes Partnership (OMOP) Common Data Model,
ensuring consistency and interoperability across different healthcare systems
and datasets, and a comprehensive evaluation of model performance. Performance
of models is primarily assessed using the F1-score, and it is complemented by
various assessment modes to provide comprehensive insights into model
performance. The report also includes a brief analysis of models evaluated to
date, highlighting observed trends and limitations.
By establishing this benchmarking framework, the leaderboard aims to promote
transparency, facilitate comparative analyses, and drive innovation in clinical
entity recognition tasks, addressing the need for robust evaluation methods in
healthcare NLP.Summary
AI-Generated Summary