Lunguage: Un punto de referencia para la interpretación estructurada y secuencial de radiografías de tórax
Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation
May 27, 2025
Autores: Jong Hak Moon, Geon Choi, Paloma Rabaey, Min Gwan Kim, Hyuk Gi Hong, Jung-Oh Lee, Hangyul Yoon, Eun Woo Doe, Jiyoun Kim, Harshita Sharma, Daniel C. Castro, Javier Alvarez-Valle, Edward Choi
cs.AI
Resumen
Los informes de radiología transmiten observaciones clínicas detalladas y capturan el razonamiento diagnóstico que evoluciona con el tiempo. Sin embargo, los métodos de evaluación existentes se limitan a entornos de informes individuales y dependen de métricas generales que no logran capturar la semántica clínica detallada ni las dependencias temporales. Presentamos LUNGUAGE, un conjunto de datos de referencia para la generación estructurada de informes de radiología que admite tanto la evaluación de informes individuales como la evaluación longitudinal a nivel de paciente en múltiples estudios. Contiene 1,473 informes de rayos X de tórax anotados, cada uno revisado por expertos, y 80 de ellos incluyen anotaciones longitudinales para capturar la progresión de la enfermedad y los intervalos entre estudios, también revisados por expertos. Utilizando este conjunto de referencia, desarrollamos un marco de trabajo de dos etapas que transforma los informes generados en representaciones estructuradas detalladas y alineadas con un esquema, permitiendo una interpretación longitudinal. También proponemos LUNGUAGESCORE, una métrica interpretable que compara las salidas estructuradas a nivel de entidad, relación y atributo, mientras modela la consistencia temporal a lo largo de las líneas de tiempo del paciente. Estas contribuciones establecen el primer conjunto de datos de referencia, marco de estructuración y métrica de evaluación para la generación secuencial de informes de radiología, con resultados empíricos que demuestran que LUNGUAGESCORE respalda efectivamente la evaluación de informes estructurados. El código está disponible en: https://github.com/SuperSupermoon/Lunguage
English
Radiology reports convey detailed clinical observations and capture
diagnostic reasoning that evolves over time. However, existing evaluation
methods are limited to single-report settings and rely on coarse metrics that
fail to capture fine-grained clinical semantics and temporal dependencies. We
introduce LUNGUAGE,a benchmark dataset for structured radiology report
generation that supports both single-report evaluation and longitudinal
patient-level assessment across multiple studies. It contains 1,473 annotated
chest X-ray reports, each reviewed by experts, and 80 of them contain
longitudinal annotations to capture disease progression and inter-study
intervals, also reviewed by experts. Using this benchmark, we develop a
two-stage framework that transforms generated reports into fine-grained,
schema-aligned structured representations, enabling longitudinal
interpretation. We also propose LUNGUAGESCORE, an interpretable metric that
compares structured outputs at the entity, relation, and attribute level while
modeling temporal consistency across patient timelines. These contributions
establish the first benchmark dataset, structuring framework, and evaluation
metric for sequential radiology reporting, with empirical results demonstrating
that LUNGUAGESCORE effectively supports structured report evaluation. The code
is available at: https://github.com/SuperSupermoon/LunguageSummary
AI-Generated Summary