ChatPaper.aiChatPaper

UniX: Vereinheitlichung von Autoregression und Diffusion für das Verständnis und die Generierung von Thorax-Röntgenaufnahmen

UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

January 16, 2026
papers.authors: Ruiheng Zhang, Jingfeng Yao, Huangxuan Zhao, Hao Yan, Xiao He, Lei Chen, Zhou Wei, Yong Luo, Zengmao Wang, Lefei Zhang, Dacheng Tao, Bo Du
cs.AI

papers.abstract

Trotz jüngster Fortschritte haben medizinische Foundation-Modelle nach wie vor Schwierigkeiten, visuelles Verständnis und Generierung zu vereinen, da diese Aufgaben inhärent widersprüchliche Ziele verfolgen: semantische Abstraktion versus pixelgenaue Rekonstruktion. Bestehende Ansätze, die typischerweise auf parametergeteilten autoregressiven Architekturen basieren, führen häufig zu Beeinträchtigungen in einer oder beiden Aufgaben. Um dieses Problem zu lösen, präsentieren wir UniX, ein neuartiges vereinheitlichtes medizinisches Foundation-Modell für das Verständnis und die Generierung von Thorax-Röntgenaufnahmen. UniX entkoppelt die beiden Aufgaben in einen autoregressiven Zweig für das Verständnis und einen Diffusionszweig für hochpräzise Generierung. Entscheidend ist, dass ein cross-modaler Self-Attention-Mechanismus eingeführt wird, um den Generierungsprozess dynamisch mit Verständnismerkmalen zu steuern. In Kombination mit einer rigorosen Datenbereinigungs-Pipeline und einer mehrstufigen Trainingsstrategie ermöglicht diese Architektur eine synergetische Zusammenarbeit zwischen den Aufgaben, während sie die Stärken von Diffusionsmodellen für überlegene Generierung nutzt. In zwei repräsentativen Benchmarks erzielt UniX eine 46,1 %ige Verbesserung der Verständnisleistung (Micro-F1) und einen 24,2 %igen Zuwachs an Generierungsqualität (FD-RadDino) – bei lediglich einem Viertel der Parameter von LLM-CXR. Indem es eine Leistung auf Augenhöhe mit aufgabenspezifischen Modellen erreicht, etabliert unsere Arbeit ein skalierbares Paradigma für synergetisches medizinisches Bildverständnis und -generierung. Codes und Modelle sind verfügbar unter https://github.com/ZrH42/UniX.
English
Despite recent progress, medical foundation models still struggle to unify visual understanding and generation, as these tasks have inherently conflicting goals: semantic abstraction versus pixel-level reconstruction. Existing approaches, typically based on parameter-shared autoregressive architectures, frequently lead to compromised performance in one or both tasks. To address this, we present UniX, a next-generation unified medical foundation model for chest X-ray understanding and generation. UniX decouples the two tasks into an autoregressive branch for understanding and a diffusion branch for high-fidelity generation. Crucially, a cross-modal self-attention mechanism is introduced to dynamically guide the generation process with understanding features. Coupled with a rigorous data cleaning pipeline and a multi-stage training strategy, this architecture enables synergistic collaboration between tasks while leveraging the strengths of diffusion models for superior generation. On two representative benchmarks, UniX achieves a 46.1% improvement in understanding performance (Micro-F1) and a 24.2% gain in generation quality (FD-RadDino), using only a quarter of the parameters of LLM-CXR. By achieving performance on par with task-specific models, our work establishes a scalable paradigm for synergistic medical image understanding and generation. Codes and models are available at https://github.com/ZrH42/UniX.
PDF151January 22, 2026