EHRCon: 電子健康記録における非構造化ノートと構造化テーブルの整合性を検証するためのデータセット
EHRCon: Dataset for Checking Consistency between Unstructured Notes and Structured Tables in Electronic Health Records
June 24, 2024
著者: Yeonsu Kwon, Jiho Kim, Gyubok Lee, Seongsu Bae, Daeun Kyung, Wonchul Cha, Tom Pollard, Alistair Johnson, Edward Choi
cs.AI
要旨
電子健康記録(EHR)は、患者の包括的な医療記録を保存するために不可欠であり、構造化データ(例:薬剤情報)と詳細な臨床ノート(例:医師の記録)を組み合わせています。これらの要素は、データの簡単な検索を可能にし、患者ケアに関する深い文脈的洞察を提供します。しかし、直感的でないEHRシステム設計や人的ミスによる不一致が頻繁に発生し、患者の安全に重大なリスクをもたらします。この問題に対処するため、我々はEHRConという新しいデータセットとタスクを開発しました。EHRConは、EHR内の構造化テーブルと非構造化ノート間のデータ整合性を確保するために特別に設計されています。EHRConは、医療専門家との協力のもと、MIMIC-III EHRデータセットを使用して作成され、3,943のエンティティにわたる105の臨床ノートに対してデータベースエントリとの整合性を確認する手動アノテーションが含まれています。EHRConには、適用性と一般化性を高めるために、オリジナルのMIMIC-IIIスキーマを使用したバージョンと、OMOP CDMスキーマを使用したバージョンの2種類があります。さらに、大規模言語モデルの能力を活用して、臨床ノートとデータベーステーブル間の整合性を検証する新しいフレームワークであるCheckEHRを導入します。CheckEHRは8段階のプロセスを利用し、few-shotおよびzero-shot設定で有望な結果を示しています。コードはhttps://github.com/dustn1259/EHRConで公開されています。
English
Electronic Health Records (EHRs) are integral for storing comprehensive
patient medical records, combining structured data (e.g., medications) with
detailed clinical notes (e.g., physician notes). These elements are essential
for straightforward data retrieval and provide deep, contextual insights into
patient care. However, they often suffer from discrepancies due to unintuitive
EHR system designs and human errors, posing serious risks to patient safety. To
address this, we developed EHRCon, a new dataset and task specifically designed
to ensure data consistency between structured tables and unstructured notes in
EHRs. EHRCon was crafted in collaboration with healthcare professionals using
the MIMIC-III EHR dataset, and includes manual annotations of 3,943 entities
across 105 clinical notes checked against database entries for consistency.
EHRCon has two versions, one using the original MIMIC-III schema, and another
using the OMOP CDM schema, in order to increase its applicability and
generalizability. Furthermore, leveraging the capabilities of large language
models, we introduce CheckEHR, a novel framework for verifying the consistency
between clinical notes and database tables. CheckEHR utilizes an eight-stage
process and shows promising results in both few-shot and zero-shot settings.
The code is available at https://github.com/dustn1259/EHRCon.Summary
AI-Generated Summary