ECHO: Generazione Efficiente di Referti Radiografici del Torace con Diffusione a Blocchi in un Singolo Passaggio

Abstract

La generazione di referti radiografici del torace (CXR-RG) ha il potenziale di alleviare significativamente il carico di lavoro dei radiologi. Tuttavia, i convenzionali modelli visivo-linguistici (VLM) autoregressivi soffrono di un'elevata latenza inferenziale a causa del decadimento sequenziale dei token. I modelli basati su diffusione offrono un'alternativa promettente grazie alla generazione parallela, ma richiedono comunque multiple iterazioni di denoising. Comprimere il denoising multi-step in un singolo step potrebbe ridurre ulteriormente la latenza, ma spesso degrada la coerenza testuale a causa del bias di campo medio introdotto dai denoiser fattorizzati per token. Per affrontare questa sfida, proponiamo ECHO, un VLM basato su diffusione (dVLM) efficiente per la generazione di referti radiografici del torace. ECHO abilita un'inferenza stabile a un passo per blocco tramite una nuova struttura di Distillazione Condizionale Diretta (DCD), che mitiga la limitazione del campo medio costruendo una supervisione non fattorizzata a partire da traiettorie di diffusione on-policy per codificare le dipendenze congiunte dei token. Inoltre, introduciamo una strategia di addestramento a Diffusione Risposta-Asimmetrica (RAD) che migliora ulteriormente l'efficienza dell'addestramento mantenendo l'efficacia del modello. Esperimenti estensivi dimostrano che ECHO supera i metodi autoregressivi all'avanguardia, migliorando RaTE e SemScore rispettivamente del 64,33% e del 60,58%, raggiungendo al contempo un'accelerazione inferenziale di 8 volte senza compromettere l'accuratezza clinica.

English

Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose ECHO, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by 64.33\% and 60.58\% respectively, while achieving an 8times inference speedup without compromising clinical accuracy.

ECHO: Generazione Efficiente di Referti Radiografici del Torace con Diffusione a Blocchi in un Singolo Passaggio

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

Abstract

Support