ChatPaper.aiChatPaper

CXReasonBench: Un Benchmark per Valutare il Ragionamento Diagnostico Strutturato nelle Radiografie del Torace

CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

May 23, 2025
Autori: Hyungyung Lee, Geon Choi, Jung-Oh Lee, Hangyul Yoon, Hyuk Gi Hong, Edward Choi
cs.AI

Abstract

I recenti progressi nei Modelli Linguistico-Visivi di Grande Scala (LVLM) hanno reso possibili applicazioni promettenti in ambito medico, come la generazione di referti e il rispondere a domande visive. Tuttavia, i benchmark esistenti si concentrano principalmente sulla risposta diagnostica finale, offrendo una visione limitata sul fatto che i modelli siano in grado di effettuare ragionamenti clinicamente significativi. Per affrontare questa lacuna, presentiamo CheXStruct e CXReasonBench, una pipeline strutturata e un benchmark basati sul dataset pubblico MIMIC-CXR-JPG. CheXStruct deriva automaticamente una sequenza di passaggi intermedi di ragionamento direttamente dalle radiografie del torace, come la segmentazione delle regioni anatomiche, l'individuazione di punti di riferimento anatomici e misurazioni diagnostiche, il calcolo di indici diagnostici e l'applicazione di soglie cliniche. CXReasonBench utilizza questa pipeline per valutare se i modelli siano in grado di eseguire passaggi di ragionamento clinicamente validi e in che misura possano apprendere da una guida strutturata, consentendo una valutazione granulare e trasparente del ragionamento diagnostico. Il benchmark comprende 18.988 coppie domanda-risposta su 12 task diagnostici e 1.200 casi, ciascuno associato a un massimo di 4 input visivi, e supporta una valutazione multi-percorso e multi-stadio, inclusa la localizzazione visiva tramite la selezione di regioni anatomiche e misurazioni diagnostiche. Anche il più forte tra i 10 LVLM valutati fatica nel ragionamento strutturato e nella generalizzazione, spesso non riuscendo a collegare conoscenze astratte con un'interpretazione visiva radicata nell'anatomia. Il codice è disponibile all'indirizzo https://github.com/ttumyche/CXReasonBench.
English
Recent progress in Large Vision-Language Models (LVLMs) has enabled promising applications in medical tasks, such as report generation and visual question answering. However, existing benchmarks focus mainly on the final diagnostic answer, offering limited insight into whether models engage in clinically meaningful reasoning. To address this, we present CheXStruct and CXReasonBench, a structured pipeline and benchmark built on the publicly available MIMIC-CXR-JPG dataset. CheXStruct automatically derives a sequence of intermediate reasoning steps directly from chest X-rays, such as segmenting anatomical regions, deriving anatomical landmarks and diagnostic measurements, computing diagnostic indices, and applying clinical thresholds. CXReasonBench leverages this pipeline to evaluate whether models can perform clinically valid reasoning steps and to what extent they can learn from structured guidance, enabling fine-grained and transparent assessment of diagnostic reasoning. The benchmark comprises 18,988 QA pairs across 12 diagnostic tasks and 1,200 cases, each paired with up to 4 visual inputs, and supports multi-path, multi-stage evaluation including visual grounding via anatomical region selection and diagnostic measurements. Even the strongest of 10 evaluated LVLMs struggle with structured reasoning and generalization, often failing to link abstract knowledge with anatomically grounded visual interpretation. The code is available at https://github.com/ttumyche/CXReasonBench
PDF82May 30, 2025