ECHO: Geração Eficiente de Laudos de Radiografia de Tórax com Difusão em Bloco em Uma Etapa
ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion
April 10, 2026
Autores: Lifeng Chen, Tianqi You, Hao Liu, Zhimin Bao, Jile Jiao, Xiao Han, Zhicai Ou, Tao Sun, Xiaofeng Mou, Xiaojie Jin, Yi Xu
cs.AI
Resumo
A geração de relatórios de radiografia de tórax (CXR-RG) tem o potencial de aliviar substancialmente a carga de trabalho dos radiologistas. No entanto, os modelos convencionais autoregressivos de visão e linguagem (VLMs) sofrem com alta latência de inferência devido à decodificação sequencial de tokens. Os modelos baseados em difusão oferecem uma alternativa promissora através da geração paralela, mas ainda requerem múltiplas iterações de remoção de ruído. Comprimir a remoção de ruído multi-etapa para uma única etapa poderia reduzir ainda mais a latência, mas frequentemente degrada a coerência textual devido ao viés de campo médio introduzido por removedores de ruído fatorizados por token. Para enfrentar este desafio, propomos o ECHO, um VLM baseado em difusão (dVLM) eficiente para geração de relatórios de radiografia de tórax. O ECHO permite uma inferência estável de uma etapa por bloco através de uma nova estrutura de Distilação Condicional Direta (DCD), que mitiga a limitação do campo médio através da construção de supervisão não fatorizada a partir de trajetórias de difusão *on-policy* para codificar dependências conjuntas de tokens. Adicionalmente, introduzimos uma estratégia de treino de Difusão Assimétrica de Resposta (RAD) que melhora ainda mais a eficiência do treino enquanto mantém a eficácia do modelo. Experimentos extensivos demonstram que o ECHO supera os métodos autoregressivos mais avançados, melhorando as métricas RaTE e SemScore em 64,33% e 60,58%, respetivamente, enquanto alcança uma aceleração de inferência de 8 vezes sem comprometer a precisão clínica.
English
Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose ECHO, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by 64.33\% and 60.58\% respectively, while achieving an 8times inference speedup without compromising clinical accuracy.