UniX: Объединение авторегрессии и диффузии для анализа и генерации рентгенограмм органов грудной клетки
UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation
January 16, 2026
Авторы: Ruiheng Zhang, Jingfeng Yao, Huangxuan Zhao, Hao Yan, Xiao He, Lei Chen, Zhou Wei, Yong Luo, Zengmao Wang, Lefei Zhang, Dacheng Tao, Bo Du
cs.AI
Аннотация
Несмотря на недавний прогресс, медицинские базовые модели по-прежнему испытывают трудности с объединением визуального понимания и генерации, поскольку эти задачи имеют принципиально противоречивые цели: семантическую абстракцию против пиксельной реконструкции. Существующие подходы, обычно основанные на авторегрессионных архитектурах с общими параметрами, часто приводят к компромиссной производительности в одной или обеих задачах. Для решения этой проблемы мы представляем UniX — базовую модель нового поколения для анализа и генерации рентгеновских снимков грудной клетки. UniX разделяет две задачи на авторегрессионное ответвление для анализа и диффузионное ответвление для высококачественной генерации. Ключевым моментом является введение механизма кросс-модального self-attention для динамического управления процессом генерации с помощью признаков понимания. В сочетании с тщательным пайплайном очистки данных и многоэтапной стратегией обучения эта архитектура позволяет обеспечить синергетическое взаимодействие между задачами, одновременно используя преимущества диффузионных моделей для превосходной генерации. На двух репрезентативных бенчмарках UniX демонстрирует улучшение производительности анализа (Micro-F1) на 46,1% и повышение качества генерации (FD-RadDino) на 24,2%, используя лишь четверть параметров модели LLM-CXR. Достигая производительности на уровне специализированных моделей, наша работа устанавливает масштабируемую парадигму для синергетического анализа и генерации медицинских изображений. Код и модели доступны по адресу https://github.com/ZrH42/UniX.
English
Despite recent progress, medical foundation models still struggle to unify visual understanding and generation, as these tasks have inherently conflicting goals: semantic abstraction versus pixel-level reconstruction. Existing approaches, typically based on parameter-shared autoregressive architectures, frequently lead to compromised performance in one or both tasks. To address this, we present UniX, a next-generation unified medical foundation model for chest X-ray understanding and generation. UniX decouples the two tasks into an autoregressive branch for understanding and a diffusion branch for high-fidelity generation. Crucially, a cross-modal self-attention mechanism is introduced to dynamically guide the generation process with understanding features. Coupled with a rigorous data cleaning pipeline and a multi-stage training strategy, this architecture enables synergistic collaboration between tasks while leveraging the strengths of diffusion models for superior generation. On two representative benchmarks, UniX achieves a 46.1% improvement in understanding performance (Micro-F1) and a 24.2% gain in generation quality (FD-RadDino), using only a quarter of the parameters of LLM-CXR. By achieving performance on par with task-specific models, our work establishes a scalable paradigm for synergistic medical image understanding and generation. Codes and models are available at https://github.com/ZrH42/UniX.