ChatPaper.aiChatPaper

UniX: 胸部X線の理解と生成のための自己回帰モデルと拡散モデルの統合

UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

January 16, 2026
著者: Ruiheng Zhang, Jingfeng Yao, Huangxuan Zhao, Hao Yan, Xiao He, Lei Chen, Zhou Wei, Yong Luo, Zengmao Wang, Lefei Zhang, Dacheng Tao, Bo Du
cs.AI

要旨

近年の進歩にもかかわらず、医療基盤モデルは視覚的理解と生成の統合に依然として苦戦している。これらのタスクは本質的に相反する目標(意味的抽象化とピクセルレベルの再構築)を持つためである。既存のアプローチ、特にパラメータ共有型の自己回帰アーキテクチャに基づく手法では、一方または両方のタスクで性能が犠牲になることが多い。この問題に対処するため、我々は胸部X線画像の理解と生成を統合する次世代医療基盤モデルUniXを提案する。UniXは二つのタスクを、理解のための自己回帰ブランチと、高精細生成のための拡散ブランチに分離する。特に重要なのは、生成プロセスを理解特徴で動的に誘導するクロスモーダル自己注意機構を導入した点である。厳格なデータクリーニングパイプラインと多段階学習戦略と組み合わせることで、このアーキテクチャはタスク間の相乗的協調を可能にし、拡散モデルの強みを活かした優れた生成を実現する。代表的な2つのベンチマークにおいて、UniXはLLM-CXRのパラメータ数の4分の1のみを使用しながら、理解性能(Micro-F1)で46.1%、生成品質(FD-RadDino)で24.2%の向上を達成した。タスク特化型モデルと同等の性能を実現することで、本研究は医療画像の理解と生成を相乗的に行うスケーラブルなパラダイムを確立する。コードとモデルはhttps://github.com/ZrH42/UniXで公開されている。
English
Despite recent progress, medical foundation models still struggle to unify visual understanding and generation, as these tasks have inherently conflicting goals: semantic abstraction versus pixel-level reconstruction. Existing approaches, typically based on parameter-shared autoregressive architectures, frequently lead to compromised performance in one or both tasks. To address this, we present UniX, a next-generation unified medical foundation model for chest X-ray understanding and generation. UniX decouples the two tasks into an autoregressive branch for understanding and a diffusion branch for high-fidelity generation. Crucially, a cross-modal self-attention mechanism is introduced to dynamically guide the generation process with understanding features. Coupled with a rigorous data cleaning pipeline and a multi-stage training strategy, this architecture enables synergistic collaboration between tasks while leveraging the strengths of diffusion models for superior generation. On two representative benchmarks, UniX achieves a 46.1% improvement in understanding performance (Micro-F1) and a 24.2% gain in generation quality (FD-RadDino), using only a quarter of the parameters of LLM-CXR. By achieving performance on par with task-specific models, our work establishes a scalable paradigm for synergistic medical image understanding and generation. Codes and models are available at https://github.com/ZrH42/UniX.
PDF151January 22, 2026