ChatPaper.aiChatPaper

Lunguage: Un Benchmark per l'Interpretazione Strutturata e Sequenziale delle Radiografie Toraciche

Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation

May 27, 2025
Autori: Jong Hak Moon, Geon Choi, Paloma Rabaey, Min Gwan Kim, Hyuk Gi Hong, Jung-Oh Lee, Hangyul Yoon, Eun Woo Doe, Jiyoun Kim, Harshita Sharma, Daniel C. Castro, Javier Alvarez-Valle, Edward Choi
cs.AI

Abstract

I referti radiologici trasmettono osservazioni cliniche dettagliate e catturano il ragionamento diagnostico che si evolve nel tempo. Tuttavia, i metodi di valutazione esistenti sono limitati a contesti di singoli referti e si basano su metriche grossolane che non riescono a cogliere la semantica clinica fine e le dipendenze temporali. Introduciamo LUNGUAGE, un dataset di riferimento per la generazione strutturata di referti radiologici che supporta sia la valutazione di singoli referti sia l'analisi longitudinale a livello di paziente attraverso più studi. Esso contiene 1.473 referti di radiografie toraciche annotati, ciascuno revisionato da esperti, e 80 di essi contengono annotazioni longitudinali per catturare la progressione della malattia e gli intervalli tra gli studi, anch'essi revisionati da esperti. Utilizzando questo benchmark, sviluppiamo un framework a due stadi che trasforma i referti generati in rappresentazioni strutturate allineate a uno schema fine, consentendo un'interpretazione longitudinale. Proponiamo inoltre LUNGUAGESCORE, una metrica interpretabile che confronta gli output strutturati a livello di entità, relazione e attributo, modellando al contempo la coerenza temporale lungo le linee temporali dei pazienti. Questi contributi stabiliscono il primo dataset di riferimento, framework di strutturazione e metrica di valutazione per la refertazione radiologica sequenziale, con risultati empirici che dimostrano che LUNGUAGESCORE supporta efficacemente la valutazione dei referti strutturati. Il codice è disponibile all'indirizzo: https://github.com/SuperSupermoon/Lunguage
English
Radiology reports convey detailed clinical observations and capture diagnostic reasoning that evolves over time. However, existing evaluation methods are limited to single-report settings and rely on coarse metrics that fail to capture fine-grained clinical semantics and temporal dependencies. We introduce LUNGUAGE,a benchmark dataset for structured radiology report generation that supports both single-report evaluation and longitudinal patient-level assessment across multiple studies. It contains 1,473 annotated chest X-ray reports, each reviewed by experts, and 80 of them contain longitudinal annotations to capture disease progression and inter-study intervals, also reviewed by experts. Using this benchmark, we develop a two-stage framework that transforms generated reports into fine-grained, schema-aligned structured representations, enabling longitudinal interpretation. We also propose LUNGUAGESCORE, an interpretable metric that compares structured outputs at the entity, relation, and attribute level while modeling temporal consistency across patient timelines. These contributions establish the first benchmark dataset, structuring framework, and evaluation metric for sequential radiology reporting, with empirical results demonstrating that LUNGUAGESCORE effectively supports structured report evaluation. The code is available at: https://github.com/SuperSupermoon/Lunguage
PDF42May 30, 2025