ECHO: 원스텝 블록 확산을 통한 효율적인 흉부 X-ray 보고서 생성
ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion
April 10, 2026
저자: Lifeng Chen, Tianqi You, Hao Liu, Zhimin Bao, Jile Jiao, Xiao Han, Zhicai Ou, Tao Sun, Xiaofeng Mou, Xiaojie Jin, Yi Xu
cs.AI
초록
흉부 X선 보고서 생성(CXR-RG)은 방사선 전문의의 업무 부담을 상당히 완화할 수 있는 잠재력을 지니고 있습니다. 그러나 기존의 자기회귀적 시각-언어 모델(VLM)은 순차적 토큰 디코딩으로 인해 높은 추론 지연 시간을 겪습니다. 확산 기반 모델은 병렬 생성을 통해 유망한 대안을 제공하지만, 여전히 여러 번의 노이즈 제거 반복이 필요합니다. 다단계 노이즈 제거를 단일 단계로 압축하면 지연 시간을 추가로 줄일 수 있지만, 토큰 분해 노이즈 제거기에서 도입된 평균장 편향으로 인해 텍스트 일관성이 종종 저하됩니다. 이러한 문제를 해결하기 위해 우리는 흉부 X선 보고서 생성을 위한 효율적인 확산 기반 VLM(dVLM)인 ECHO를 제안합니다. ECHO는 새로운 직접 조건부 증류(DCD) 프레임워크를 통해 블록당 안정적인 1단계 추론을 가능하게 하며, 온-정책 확산 궤적에서 비분해된 감독을 구축하여 공동 토큰 종속성을 인코딩함으로써 평균장 한계를 완화합니다. 또한, 우리는 모델 효과성을 유지하면서 훈련 효율을 더욱 향상시키는 응답 비대칭 확산(RAD) 훈련 전략을 도입합니다. 광범위한 실험을 통해 ECHO가 최첨단 자기회귀 방법을 능가하여 RaTE와 SemScore를 각각 64.33% 및 60.58% 향상시키면서 임상적 정확성을 저해하지 않고 8배의 추론 속도 향상을 달성함을 입증합니다.
English
Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose ECHO, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by 64.33\% and 60.58\% respectively, while achieving an 8times inference speedup without compromising clinical accuracy.