Lunguage: 구조적 및 순차적 흉부 X-선 해석을 위한 벤치마크
Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation
May 27, 2025
저자: Jong Hak Moon, Geon Choi, Paloma Rabaey, Min Gwan Kim, Hyuk Gi Hong, Jung-Oh Lee, Hangyul Yoon, Eun Woo Doe, Jiyoun Kim, Harshita Sharma, Daniel C. Castro, Javier Alvarez-Valle, Edward Choi
cs.AI
초록
영상의학 보고서는 상세한 임상 관찰을 전달하며 시간에 따라 진화하는 진단 논리를 담고 있습니다. 그러나 기존 평가 방법은 단일 보고서 설정에 국한되어 있으며, 세밀한 임상 의미론과 시간적 의존성을 포착하지 못하는 대략적인 지표에 의존합니다. 우리는 단일 보고서 평가와 다수의 연구에 걸친 환자 수준의 종단적 평가를 모두 지원하는 구조화된 영상의학 보고서 생성을 위한 벤치마크 데이터셋인 LUNGUAGE를 소개합니다. 이 데이터셋은 전문가가 검토한 1,473개의 흉부 X-레이 보고서를 포함하며, 그 중 80개는 질병 진행과 연구 간 간격을 포착하기 위한 종단적 주석을 포함하고 있습니다. 이 벤치마크를 사용하여, 우리는 생성된 보고서를 세밀하고 스키마에 맞춰 구조화된 표현으로 변환하여 종단적 해석을 가능하게 하는 두 단계 프레임워크를 개발했습니다. 또한, LUNGUAGESCORE라는 해석 가능한 지표를 제안하여, 환자 타임라인에 걸친 시간적 일관성을 모델링하면서 엔티티, 관계, 속성 수준에서 구조화된 출력을 비교합니다. 이러한 기여는 순차적 영상의학 보고를 위한 첫 번째 벤치마크 데이터셋, 구조화 프레임워크, 평가 지표를 확립하며, 실험 결과는 LUNGUAGESCORE가 구조화된 보고서 평가를 효과적으로 지원함을 보여줍니다. 코드는 https://github.com/SuperSupermoon/Lunguage에서 확인할 수 있습니다.
English
Radiology reports convey detailed clinical observations and capture
diagnostic reasoning that evolves over time. However, existing evaluation
methods are limited to single-report settings and rely on coarse metrics that
fail to capture fine-grained clinical semantics and temporal dependencies. We
introduce LUNGUAGE,a benchmark dataset for structured radiology report
generation that supports both single-report evaluation and longitudinal
patient-level assessment across multiple studies. It contains 1,473 annotated
chest X-ray reports, each reviewed by experts, and 80 of them contain
longitudinal annotations to capture disease progression and inter-study
intervals, also reviewed by experts. Using this benchmark, we develop a
two-stage framework that transforms generated reports into fine-grained,
schema-aligned structured representations, enabling longitudinal
interpretation. We also propose LUNGUAGESCORE, an interpretable metric that
compares structured outputs at the entity, relation, and attribute level while
modeling temporal consistency across patient timelines. These contributions
establish the first benchmark dataset, structuring framework, and evaluation
metric for sequential radiology reporting, with empirical results demonstrating
that LUNGUAGESCORE effectively supports structured report evaluation. The code
is available at: https://github.com/SuperSupermoon/LunguageSummary
AI-Generated Summary