ChatPaper.aiChatPaper

Lunguage: Een Benchmark voor Gestructureerde en Sequentiële Interpretatie van Thoraxfoto's

Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation

May 27, 2025
Auteurs: Jong Hak Moon, Geon Choi, Paloma Rabaey, Min Gwan Kim, Hyuk Gi Hong, Jung-Oh Lee, Hangyul Yoon, Eun Woo Doe, Jiyoun Kim, Harshita Sharma, Daniel C. Castro, Javier Alvarez-Valle, Edward Choi
cs.AI

Samenvatting

Radiologieverslagen geven gedetailleerde klinische observaties weer en vangen diagnostische redeneringen vast die zich in de loop van de tijd ontwikkelen. Bestaande evaluatiemethoden zijn echter beperkt tot individuele verslagen en maken gebruik van grove metrieken die geen rekening houden met fijnmazige klinische semantiek en temporele afhankelijkheden. Wij introduceren LUNGUAGE, een benchmarkdataset voor het genereren van gestructureerde radiologieverslagen die zowel evaluatie van individuele verslagen als longitudinale patiëntniveau-assessments over meerdere studies ondersteunt. De dataset bevat 1.473 geannoteerde thoraxfoto-verslagen, elk beoordeeld door experts, waarvan 80 longitudinale annotaties bevatten om ziekteprogressie en intervallen tussen studies vast te leggen, eveneens beoordeeld door experts. Met behulp van deze benchmark ontwikkelen we een tweestapsraamwerk dat gegenereerde verslagen omzet in fijnmazige, schema-afgestemde gestructureerde representaties, waardoor longitudinale interpretatie mogelijk wordt. We introduceren ook LUNGUAGESCORE, een interpreteerbare metriek die gestructureerde uitvoer vergelijkt op het niveau van entiteiten, relaties en attributen, terwijl temporele consistentie over patiënttijdlijnen wordt gemodelleerd. Deze bijdragen vormen de eerste benchmarkdataset, structureringsraamwerk en evaluatiemetriek voor sequentiële radiologieverslaggeving, waarbij empirische resultaten aantonen dat LUNGUAGESCORE gestructureerde verslagevaluatie effectief ondersteunt. De code is beschikbaar op: https://github.com/SuperSupermoon/Lunguage
English
Radiology reports convey detailed clinical observations and capture diagnostic reasoning that evolves over time. However, existing evaluation methods are limited to single-report settings and rely on coarse metrics that fail to capture fine-grained clinical semantics and temporal dependencies. We introduce LUNGUAGE,a benchmark dataset for structured radiology report generation that supports both single-report evaluation and longitudinal patient-level assessment across multiple studies. It contains 1,473 annotated chest X-ray reports, each reviewed by experts, and 80 of them contain longitudinal annotations to capture disease progression and inter-study intervals, also reviewed by experts. Using this benchmark, we develop a two-stage framework that transforms generated reports into fine-grained, schema-aligned structured representations, enabling longitudinal interpretation. We also propose LUNGUAGESCORE, an interpretable metric that compares structured outputs at the entity, relation, and attribute level while modeling temporal consistency across patient timelines. These contributions establish the first benchmark dataset, structuring framework, and evaluation metric for sequential radiology reporting, with empirical results demonstrating that LUNGUAGESCORE effectively supports structured report evaluation. The code is available at: https://github.com/SuperSupermoon/Lunguage
PDF32May 30, 2025