UniX: 흉부 X선 이해 및 생성을 위한 자기회귀 모델과 확산 모델의 통합
UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation
January 16, 2026
저자: Ruiheng Zhang, Jingfeng Yao, Huangxuan Zhao, Hao Yan, Xiao He, Lei Chen, Zhou Wei, Yong Luo, Zengmao Wang, Lefei Zhang, Dacheng Tao, Bo Du
cs.AI
초록
최근 진전에도 불구하고 의료 파운데이션 모델은 여전히 시각적 이해와 생성의 통합에 어려움을 겪고 있으며, 이는 두 작업이 본질적으로 상충하는 목표(의미론적 추상화 대 픽셀 수준 재구성)를 가지기 때문입니다. 기존 접근법은 일반적으로 매개변수 공유 자기회귀 아키텍처에 기반하여 두 작업 중 하나 또는 둘 모두에서 성능 저하를 초래하는 경우가 많습니다. 이를 해결하기 위해 우리는 흉부 X-ray 이해 및 생성을 위한 차세대 통합 의료 파운데이션 모델인 UniX를 제시합니다. UniX는 두 작업을 이해를 위한 자기회귀 분기와 고품질 생성을 위한 확산 분기로 분리합니다. 결정적으로, 크로스 모달 자기 주의 메커니즘을 도입하여 생성 과정을 이해 특징으로 동적으로 안내합니다. 엄격한 데이터 정제 파이프라인과 다단계 학습 전략과 결합된 이 아키텍처는 확산 모델의 강점을 활용하여 우수한 생성을 달성하면서 작업 간의 시너지 협력을 가능하게 합니다. 두 가지 대표적인 벤치마크에서 UniX는 LLM-CXR 대비 매개변수 수의 4분의 1만 사용하여 이해 성능(Micro-F1)에서 46.1%, 생성 품질(FD-RadDino)에서 24.2%의 향상을 달성했습니다. 작업 특화 모델과 동등한 성능을 달성함으로써, 우리의 연구는 시너지적인 의료 영상 이해와 생성을 위한 확장 가능한 패러다임을 정립합니다. 코드와 모델은 https://github.com/ZrH42/UniX에서 이용 가능합니다.
English
Despite recent progress, medical foundation models still struggle to unify visual understanding and generation, as these tasks have inherently conflicting goals: semantic abstraction versus pixel-level reconstruction. Existing approaches, typically based on parameter-shared autoregressive architectures, frequently lead to compromised performance in one or both tasks. To address this, we present UniX, a next-generation unified medical foundation model for chest X-ray understanding and generation. UniX decouples the two tasks into an autoregressive branch for understanding and a diffusion branch for high-fidelity generation. Crucially, a cross-modal self-attention mechanism is introduced to dynamically guide the generation process with understanding features. Coupled with a rigorous data cleaning pipeline and a multi-stage training strategy, this architecture enables synergistic collaboration between tasks while leveraging the strengths of diffusion models for superior generation. On two representative benchmarks, UniX achieves a 46.1% improvement in understanding performance (Micro-F1) and a 24.2% gain in generation quality (FD-RadDino), using only a quarter of the parameters of LLM-CXR. By achieving performance on par with task-specific models, our work establishes a scalable paradigm for synergistic medical image understanding and generation. Codes and models are available at https://github.com/ZrH42/UniX.