CXReasonBench: 胸部X線における構造化された診断推論を評価するためのベンチマーク
CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays
May 23, 2025
著者: Hyungyung Lee, Geon Choi, Jung-Oh Lee, Hangyul Yoon, Hyuk Gi Hong, Edward Choi
cs.AI
要旨
大規模視覚言語モデル(LVLM)の最近の進展により、レポート生成や視覚的質問応答などの医療タスクにおいて有望な応用が可能となってきた。しかし、既存のベンチマークは主に最終的な診断結果に焦点を当てており、モデルが臨床的に意味のある推論を行っているかどうかについての洞察は限られている。この問題に対処するため、我々は公開されているMIMIC-CXR-JPGデータセットに基づいて構築された構造化パイプラインとベンチマークであるCheXStructとCXReasonBenchを提案する。CheXStructは、胸部X線画像から直接、解剖学的領域のセグメンテーション、解剖学的ランドマークと診断測定値の導出、診断指標の計算、臨床的閾値の適用といった一連の中間推論ステップを自動的に導出する。CXReasonBenchはこのパイプラインを活用し、モデルが臨床的に有効な推論ステップを実行できるかどうか、および構造化されたガイダンスからどの程度学習できるかを評価し、診断推論の細分化された透明性のある評価を可能にする。このベンチマークは、12の診断タスクと1,200症例にわたる18,988のQAペアで構成され、それぞれ最大4つの視覚的入力がペアリングされており、解剖学的領域選択と診断測定による視覚的グラウンディングを含むマルチパス、マルチステージの評価をサポートする。評価された10のLVLMの中で最も強力なモデルでさえ、構造化された推論と一般化に苦戦し、抽象的な知識を解剖学的に根拠のある視覚的解釈と結びつけることができないことが多い。コードはhttps://github.com/ttumyche/CXReasonBenchで入手可能である。
English
Recent progress in Large Vision-Language Models (LVLMs) has enabled promising
applications in medical tasks, such as report generation and visual question
answering. However, existing benchmarks focus mainly on the final diagnostic
answer, offering limited insight into whether models engage in clinically
meaningful reasoning. To address this, we present CheXStruct and CXReasonBench,
a structured pipeline and benchmark built on the publicly available
MIMIC-CXR-JPG dataset. CheXStruct automatically derives a sequence of
intermediate reasoning steps directly from chest X-rays, such as segmenting
anatomical regions, deriving anatomical landmarks and diagnostic measurements,
computing diagnostic indices, and applying clinical thresholds. CXReasonBench
leverages this pipeline to evaluate whether models can perform clinically valid
reasoning steps and to what extent they can learn from structured guidance,
enabling fine-grained and transparent assessment of diagnostic reasoning. The
benchmark comprises 18,988 QA pairs across 12 diagnostic tasks and 1,200 cases,
each paired with up to 4 visual inputs, and supports multi-path, multi-stage
evaluation including visual grounding via anatomical region selection and
diagnostic measurements. Even the strongest of 10 evaluated LVLMs struggle with
structured reasoning and generalization, often failing to link abstract
knowledge with anatomically grounded visual interpretation. The code is
available at https://github.com/ttumyche/CXReasonBenchSummary
AI-Generated Summary