ECHO: Генерация отчетов по рентгенограммам грудной клетки с помощью одношаговой блочной диффузии
ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion
April 10, 2026
Авторы: Lifeng Chen, Tianqi You, Hao Liu, Zhimin Bao, Jile Jiao, Xiao Han, Zhicai Ou, Tao Sun, Xiaofeng Mou, Xiaojie Jin, Yi Xu
cs.AI
Аннотация
Генерация отчетов по рентгенограммам органов грудной клетки (CXR-RG) обладает потенциалом для существенного снижения рабочей нагрузки радиологов. Однако традиционные авторегрессионные визуально-языковые модели (VLM) страдают от высокой задержки вывода из-за последовательного декодирования токенов. Диффузионные модели предлагают перспективную альтернативу за счет параллельной генерации, но они по-прежнему требуют множественных итераций денойзинга. Сжатие многошагового денойзинга до одного шага могло бы дополнительно снизить задержку, но часто ухудшает текстовую связность из-за bias усреднения по полю, вносимого денойзерами с факторизованными токенами. Для решения этой проблемы мы предлагаем ECHO — эффективную диффузионную VLM (dVLM) для генерации отчетов по рентгенограммам грудной клетки. ECHO обеспечивает стабильный вывод за один шаг на блок благодаря новой структуре Прямого Условного Дистилляции (DCD), которая смягчает ограничение mean-field за счет построения нефакторизованного контроля на основе траекторий диффузии on-policy для кодирования совместных зависимостей токенов. Кроме того, мы представляем стратегию обучения Асимметричной Диффузии по Ответу (RAD), которая дополнительно повышает эффективность обучения при сохранении результативности модели. Многочисленные эксперименты демонстрируют, что ECHO превосходит современные авторегрессионные методы, улучшая показатели RaTE и SemScore на 64,33% и 60,58% соответственно, и достигает 8-кратного ускорения вывода без ущерба для клинической точности.
English
Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose ECHO, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by 64.33\% and 60.58\% respectively, while achieving an 8times inference speedup without compromising clinical accuracy.