ÉCHO : Génération efficace de rapports de radiographies pulmonaires par diffusion en blocs en une étape
ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion
April 10, 2026
Auteurs: Lifeng Chen, Tianqi You, Hao Liu, Zhimin Bao, Jile Jiao, Xiao Han, Zhicai Ou, Tao Sun, Xiaofeng Mou, Xiaojie Jin, Yi Xu
cs.AI
Résumé
La génération de rapports radiographiques thoraciques (CXR-RG) a le potentiel de réduire considérablement la charge de travail des radiologues. Cependant, les modèles vision-langage (VLM) autogrégressifs conventionnels souffrent d'une latence d'inférence élevée en raison du décodage séquentiel des tokens. Les modèles basés sur la diffusion offrent une alternative prometteuse grâce à une génération parallèle, mais ils nécessitent tout de même plusieurs itérations de dé-bruitage. Compresser le dé-bruitage multi-étapes en une seule étape pourrait réduire davantage la latence, mais dégrade souvent la cohérence textuelle en raison du biais de champ moyen introduit par les dé-bruiteurs à tokens factorisés. Pour relever ce défi, nous proposons ECHO, un VLM basé sur la diffusion (dVLM) efficace pour la génération de rapports de radiographies thoraciques. ECHO permet une inférence stable en une étape par bloc via un nouveau cadre de Distillation Conditionnelle Directe (DCD), qui atténue la limitation du champ moyen en construisant une supervision non factorisée à partir de trajectoires de diffusion sur-politique pour encoder les dépendances conjointes des tokens. De plus, nous introduisons une stratégie d'entraînement par Diffusion à Réponse Asymétrique (RAD) qui améliore encore l'efficacité de l'entraînement tout en maintenant l'efficacité du modèle. Des expériences approfondies démontrent qu'ECHO surpasse les méthodes autogrégressives de l'état de l'art, améliorant les métriques RaTE et SemScore de 64,33 % et 60,58 % respectivement, tout en réalisant une accélération de l'inférence par 8 sans compromettre la précision clinique.
English
Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose ECHO, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by 64.33\% and 60.58\% respectively, while achieving an 8times inference speedup without compromising clinical accuracy.