ECHO: Generación Eficiente de Informes de Radiografía de Tórax con Difusión de Bloques en un Solo Paso

Resumen

La generación de informes de radiografía de tórax (CXR-RG) tiene el potencial de aliviar sustancialmente la carga de trabajo de los radiólogos. Sin embargo, los modelos de visión y lenguaje (VLM) autoregresivos convencionales sufren una alta latencia en la inferencia debido a la decodificación secuencial de tokens. Los modelos basados en difusión ofrecen una alternativa prometedora mediante la generación en paralelo, pero aún requieren múltiples iteraciones de eliminación de ruido. Comprimir la eliminación de ruido multi-paso a un solo paso podría reducir aún más la latencia, pero a menudo degrada la coherencia textual debido al sesgo de campo medio introducido por los desruidadores factorizados por tokens. Para abordar este desafío, proponemos ECHO, un VLM basado en difusión (dVLM) eficiente para la generación de informes de radiografía de tórax. ECHO permite una inferencia estable de un paso por bloque a través de un novedoso marco de Distilación Condicional Directa (DCD), que mitiga la limitación de campo medio mediante la construcción de una supervisión no factorizada a partir de trayectorias de difusión en-policy para codizar dependencias conjuntas de tokens. Además, introducimos una estrategia de entrenamiento de Difusión de Respuesta Asimétrica (RAD) que mejora aún más la eficiencia del entrenamiento manteniendo la efectividad del modelo. Experimentos exhaustivos demuestran que ECHO supera a los métodos autoregresivos más avanzados, mejorando las métricas RaTE y SemScore en un 64.33% y un 60.58% respectivamente, mientras logra una aceleración de la inferencia de 8 veces sin comprometer la precisión clínica.

English

Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose ECHO, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by 64.33\% and 60.58\% respectively, while achieving an 8times inference speedup without compromising clinical accuracy.

ECHO: Generación Eficiente de Informes de Radiografía de Tórax con Difusión de Bloques en un Solo Paso

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

Resumen

Support