ECHO: Efficiënte Generatie van Röntgenfoto-Rapporten van de Borstkas met One-Step Blok Diffusie

Samenvatting

Het genereren van röntgenrapporten van de borstkas (CXR-RG) heeft het potentieel om de werklast van radiologen aanzienlijk te verlichten. Conventionele autoregressieve visie-taalmodellen (VLM's) kampen echter met een hoge inferentielatentie als gevolg van sequentiële token-decodering. Op diffusie gebaseerde modellen bieden een veelbelovend alternatief door parallelle generatie, maar zij vereisen nog steeds meerdere denoiseringsiteraties. Het comprimeren van meerstaps-denoisering naar een enkele stap zou de latentie verder kunnen verminderen, maar gaat vaak ten koste van de tekstuele coherentie door de mean-field bias die wordt geïntroduceerd door token-gefactoriseerde denoisers. Om deze uitdaging aan te pakken, stellen wij ECHO voor, een efficiënt op diffusie gebaseerd VLM (dVLM) voor het genereren van röntgenrapporten van de borstkas. ECHO maakt stabiele inferentie met één stap per blok mogelijk via een nieuw Direct Conditional Distillation (DCD) raamwerk, dat de mean-field beperking mitigeert door ongefactoriseerde supervisie te construeren vanuit on-policy diffusietrajecten om gezamenlijke token-afhankelijkheden te coderen. Daarnaast introduceren wij een Response-Asymmetric Diffusion (RAD) trainingsstrategie die de trainings efficiëntie verder verbetert terwijl de model effectiviteit behouden blijft. Uitgebreide experimenten tonen aan dat ECHO state-of-the-art autoregressieve methoden overtreft, waarbij RaTE en SemScore respectievelijk met 64,33% en 60,58% verbeteren, en tegelijkertijd een 8-voudige versnelling van de inferentie bereikt zonder in te boeten aan klinische nauwkeurigheid.

English

Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose ECHO, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by 64.33\% and 60.58\% respectively, while achieving an 8times inference speedup without compromising clinical accuracy.

ECHO: Efficiënte Generatie van Röntgenfoto-Rapporten van de Borstkas met One-Step Blok Diffusie

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

Samenvatting

Support