ECHO: Effiziente Erstellung von Röntgen-Thorax-Befunden mit Ein-Schritt-Block-Diffusion

Zusammenfassung

Die Generierung von Röntgen-Thorax-Berichten (CXR-RG) hat das Potenzial, die Arbeitsbelastung von Radiologen erheblich zu verringern. Konventionelle autoregressive Vision-Language-Modelle (VLMs) leiden jedoch unter hoher Inferenzlatenz aufgrund sequenzieller Token-Decodierung. Diffusionsbasierte Modelle bieten eine vielversprechende Alternative durch parallele Generierung, erfordern aber dennoch mehrere Denoising-Iterationen. Die Kompression von mehrstufigem Denoising auf einen einzigen Schritt könnte die Latenz weiter verringern, verschlechtert jedoch oft die textuelle Kohärenz aufgrund des Mean-Field-Bias, der durch token-faktorisierte Denoiser eingeführt wird. Um diese Herausforderung zu bewältigen, schlagen wir ECHO vor, ein effizientes, diffusionsbasiertes VLM (dVLM) für die Erstellung von Röntgen-Thorax-Berichten. ECHO ermöglicht eine stabile Ein-Schritt-pro-Block-Inferenz durch einen neuartigen Direct Conditional Distillation (DCD)-Rahmen, der die Mean-Field-Beschränkung mildert, indem un-faktorisierte Supervision aus on-policy-Diffusionspfaden konstruiert wird, um gemeinsame Token-Abhängigkeiten zu kodieren. Zusätzlich führen wir eine Response-Asymmetric Diffusion (RAD)-Trainingsstrategie ein, die die Trainingseffizienz weiter steigert, während die Modelleffektivität erhalten bleibt. Umfangreiche Experimente zeigen, dass ECHO state-of-the-art autoregressive Methoden übertrifft, RaTE und SemScore um 64,33 % bzw. 60,58 % verbessert und dabei eine 8-fache Beschleunigung der Inferenz erreicht, ohne die klinische Genauigkeit zu beeinträchtigen.

English

Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose ECHO, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by 64.33\% and 60.58\% respectively, while achieving an 8times inference speedup without compromising clinical accuracy.

ECHO: Effiziente Erstellung von Röntgen-Thorax-Befunden mit Ein-Schritt-Block-Diffusion

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

Zusammenfassung

Support