UniX: Unificatie van Autoregressie en Diffusie voor Interpretatie en Generatie van Röntgenfoto's van de Borstkas
UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation
January 16, 2026
Auteurs: Ruiheng Zhang, Jingfeng Yao, Huangxuan Zhao, Hao Yan, Xiao He, Lei Chen, Zhou Wei, Yong Luo, Zengmao Wang, Lefei Zhang, Dacheng Tao, Bo Du
cs.AI
Samenvatting
Ondanks recente vooruitgang worstelen medische foundation-modellen nog steeds met het verenigen van visueel begrip en generatie, aangezien deze taken inherent tegenstrijdige doelstellingen hebben: semantische abstractie versus pixel-level reconstructie. Bestaande benaderingen, doorgaans gebaseerd op autoregressieve architecturen met gedeelde parameters, leiden vaak tot gecompromitteerde prestaties in één of beide taken. Om dit aan te pakken, presenteren wij UniX, een next-generation verenigd medisch foundation-model voor begrip en generatie van thoraxfoto's. UniX ontkoppelt de twee taken in een autoregressieve tak voor begrip en een diffusietak voor hoogwaardige generatie. Cruciaal is dat een cross-modale self-attention-mechanisme wordt geïntroduceerd om het generatieproces dynamisch te sturen met begripskenmerken. Gekoppeld aan een rigoureus data-opschoningsproces en een meerfasige trainingsstrategie, stelt deze architectuur synergetische samenwerking tussen taken mogelijk, terwijl de sterke punten van diffusiemodellen worden benut voor superieure generatie. Op twee representatieve benchmarks behaalt UniX een verbetering van 46,1% in begripsprestaties (Micro-F1) en een winst van 24,2% in generatiekwaliteit (FD-RadDino), met slechts een kwart van de parameters van LLM-CXR. Door prestaties te leveren die gelijkwaardig zijn aan taakspecifieke modellen, vestigt ons werk een schaalbaar paradigma voor synergetisch medisch beeldbegrip en -generatie. Code en modellen zijn beschikbaar op https://github.com/ZrH42/UniX.
English
Despite recent progress, medical foundation models still struggle to unify visual understanding and generation, as these tasks have inherently conflicting goals: semantic abstraction versus pixel-level reconstruction. Existing approaches, typically based on parameter-shared autoregressive architectures, frequently lead to compromised performance in one or both tasks. To address this, we present UniX, a next-generation unified medical foundation model for chest X-ray understanding and generation. UniX decouples the two tasks into an autoregressive branch for understanding and a diffusion branch for high-fidelity generation. Crucially, a cross-modal self-attention mechanism is introduced to dynamically guide the generation process with understanding features. Coupled with a rigorous data cleaning pipeline and a multi-stage training strategy, this architecture enables synergistic collaboration between tasks while leveraging the strengths of diffusion models for superior generation. On two representative benchmarks, UniX achieves a 46.1% improvement in understanding performance (Micro-F1) and a 24.2% gain in generation quality (FD-RadDino), using only a quarter of the parameters of LLM-CXR. By achieving performance on par with task-specific models, our work establishes a scalable paradigm for synergistic medical image understanding and generation. Codes and models are available at https://github.com/ZrH42/UniX.