ChatPaper.aiChatPaper

言語: 構造化および逐次的な胸部X線解釈のためのベンチマーク

Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation

May 27, 2025
著者: Jong Hak Moon, Geon Choi, Paloma Rabaey, Min Gwan Kim, Hyuk Gi Hong, Jung-Oh Lee, Hangyul Yoon, Eun Woo Doe, Jiyoun Kim, Harshita Sharma, Daniel C. Castro, Javier Alvarez-Valle, Edward Choi
cs.AI

要旨

放射線レポートは詳細な臨床観察を伝え、時間とともに進化する診断推論を記録します。しかし、既存の評価手法は単一レポートの設定に限定されており、細かな臨床的意味や時間的依存関係を捉えることができない粗い指標に依存しています。本研究では、構造化された放射線レポート生成のためのベンチマークデータセットであるLUNGUAGEを紹介します。このデータセットは、単一レポートの評価と複数の研究にわたる患者レベルの縦断的評価の両方をサポートします。1,473件の注釈付き胸部X線レポートを含み、それぞれ専門家によるレビューが行われています。そのうち80件は、疾患の進行と研究間隔を捉えるための縦断的注釈を含み、これも専門家によってレビューされています。このベンチマークを使用して、生成されたレポートを細かくスキーマに沿った構造化表現に変換し、縦断的解釈を可能にする2段階のフレームワークを開発しました。また、LUNGUAGESCOREという解釈可能な指標を提案します。この指標は、エンティティ、関係、属性レベルで構造化された出力を比較し、患者のタイムラインにわたる時間的一貫性をモデル化します。これらの貢献により、逐次的な放射線レポート作成のための最初のベンチマークデータセット、構造化フレームワーク、および評価指標が確立され、LUNGUAGESCOREが構造化レポート評価を効果的にサポートすることが実証結果によって示されています。コードは以下で公開されています: https://github.com/SuperSupermoon/Lunguage
English
Radiology reports convey detailed clinical observations and capture diagnostic reasoning that evolves over time. However, existing evaluation methods are limited to single-report settings and rely on coarse metrics that fail to capture fine-grained clinical semantics and temporal dependencies. We introduce LUNGUAGE,a benchmark dataset for structured radiology report generation that supports both single-report evaluation and longitudinal patient-level assessment across multiple studies. It contains 1,473 annotated chest X-ray reports, each reviewed by experts, and 80 of them contain longitudinal annotations to capture disease progression and inter-study intervals, also reviewed by experts. Using this benchmark, we develop a two-stage framework that transforms generated reports into fine-grained, schema-aligned structured representations, enabling longitudinal interpretation. We also propose LUNGUAGESCORE, an interpretable metric that compares structured outputs at the entity, relation, and attribute level while modeling temporal consistency across patient timelines. These contributions establish the first benchmark dataset, structuring framework, and evaluation metric for sequential radiology reporting, with empirical results demonstrating that LUNGUAGESCORE effectively supports structured report evaluation. The code is available at: https://github.com/SuperSupermoon/Lunguage

Summary

AI-Generated Summary

PDF42May 30, 2025