Lunguage: Un Benchmark per l'Interpretazione Strutturata e Sequenziale delle Radiografie Toraciche
Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation
May 27, 2025
Autori: Jong Hak Moon, Geon Choi, Paloma Rabaey, Min Gwan Kim, Hyuk Gi Hong, Jung-Oh Lee, Hangyul Yoon, Eun Woo Doe, Jiyoun Kim, Harshita Sharma, Daniel C. Castro, Javier Alvarez-Valle, Edward Choi
cs.AI
Abstract
I referti radiologici trasmettono osservazioni cliniche dettagliate e catturano il ragionamento diagnostico che si evolve nel tempo. Tuttavia, i metodi di valutazione esistenti sono limitati a contesti di singoli referti e si basano su metriche grossolane che non riescono a cogliere la semantica clinica fine e le dipendenze temporali. Introduciamo LUNGUAGE, un dataset di riferimento per la generazione strutturata di referti radiologici che supporta sia la valutazione di singoli referti sia l'analisi longitudinale a livello di paziente attraverso più studi. Esso contiene 1.473 referti di radiografie toraciche annotati, ciascuno revisionato da esperti, e 80 di essi contengono annotazioni longitudinali per catturare la progressione della malattia e gli intervalli tra gli studi, anch'essi revisionati da esperti. Utilizzando questo benchmark, sviluppiamo un framework a due stadi che trasforma i referti generati in rappresentazioni strutturate allineate a uno schema fine, consentendo un'interpretazione longitudinale. Proponiamo inoltre LUNGUAGESCORE, una metrica interpretabile che confronta gli output strutturati a livello di entità, relazione e attributo, modellando al contempo la coerenza temporale lungo le linee temporali dei pazienti. Questi contributi stabiliscono il primo dataset di riferimento, framework di strutturazione e metrica di valutazione per la refertazione radiologica sequenziale, con risultati empirici che dimostrano che LUNGUAGESCORE supporta efficacemente la valutazione dei referti strutturati. Il codice è disponibile all'indirizzo: https://github.com/SuperSupermoon/Lunguage
English
Radiology reports convey detailed clinical observations and capture
diagnostic reasoning that evolves over time. However, existing evaluation
methods are limited to single-report settings and rely on coarse metrics that
fail to capture fine-grained clinical semantics and temporal dependencies. We
introduce LUNGUAGE,a benchmark dataset for structured radiology report
generation that supports both single-report evaluation and longitudinal
patient-level assessment across multiple studies. It contains 1,473 annotated
chest X-ray reports, each reviewed by experts, and 80 of them contain
longitudinal annotations to capture disease progression and inter-study
intervals, also reviewed by experts. Using this benchmark, we develop a
two-stage framework that transforms generated reports into fine-grained,
schema-aligned structured representations, enabling longitudinal
interpretation. We also propose LUNGUAGESCORE, an interpretable metric that
compares structured outputs at the entity, relation, and attribute level while
modeling temporal consistency across patient timelines. These contributions
establish the first benchmark dataset, structuring framework, and evaluation
metric for sequential radiology reporting, with empirical results demonstrating
that LUNGUAGESCORE effectively supports structured report evaluation. The code
is available at: https://github.com/SuperSupermoon/Lunguage