ChatPaper.aiChatPaper

UniX : Unification de l'autorégression et de la diffusion pour la compréhension et la génération de radiographies thoraciques

UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

January 16, 2026
papers.authors: Ruiheng Zhang, Jingfeng Yao, Huangxuan Zhao, Hao Yan, Xiao He, Lei Chen, Zhou Wei, Yong Luo, Zengmao Wang, Lefei Zhang, Dacheng Tao, Bo Du
cs.AI

papers.abstract

Malgré les progrès récents, les modèles de fondation médicaux peinent encore à unifier la compréhension visuelle et la génération, ces tâches ayant des objectifs intrinsèquement conflictuels : l'abstraction sémantique versus la reconstruction au niveau pixel. Les approches existantes, généralement basées sur des architectures autorégressives à paramètres partagés, conduisent fréquemment à une dégradation des performances sur une ou les deux tâches. Pour résoudre ce problème, nous présentons UniX, un modèle de fondation médical unifié de nouvelle génération pour la compréhension et la génération de radiographies thoraciques. UniX découple les deux tâches en une branche autorégressive pour la compréhension et une branche de diffusion pour une génération haute fidélité. Surtout, un mécanisme d'auto-attention cross-modale est introduit pour guider dynamiquement le processus de génération avec les caractéristiques de compréhension. Couplée à un pipeline rigoureux de nettoyage des données et une stratégie d'entraînement multi-étapes, cette architecture permet une collaboration synergique entre les tâches tout en exploitant les forces des modèles de diffusion pour une génération supérieure. Sur deux benchmarks représentatifs, UniX obtient une amélioration de 46,1 % des performances de compréhension (Micro-F1) et un gain de 24,2 % en qualité de génération (FD-RadDino), en utilisant seulement un quart des paramètres de LLM-CXR. En atteignant des performances comparables aux modèles spécialisés par tâche, notre travail établit un paradigme évolutif pour la compréhension et la génération synergiques d'images médicales. Les codes et modèles sont disponibles à l'adresse https://github.com/ZrH42/UniX.
English
Despite recent progress, medical foundation models still struggle to unify visual understanding and generation, as these tasks have inherently conflicting goals: semantic abstraction versus pixel-level reconstruction. Existing approaches, typically based on parameter-shared autoregressive architectures, frequently lead to compromised performance in one or both tasks. To address this, we present UniX, a next-generation unified medical foundation model for chest X-ray understanding and generation. UniX decouples the two tasks into an autoregressive branch for understanding and a diffusion branch for high-fidelity generation. Crucially, a cross-modal self-attention mechanism is introduced to dynamically guide the generation process with understanding features. Coupled with a rigorous data cleaning pipeline and a multi-stage training strategy, this architecture enables synergistic collaboration between tasks while leveraging the strengths of diffusion models for superior generation. On two representative benchmarks, UniX achieves a 46.1% improvement in understanding performance (Micro-F1) and a 24.2% gain in generation quality (FD-RadDino), using only a quarter of the parameters of LLM-CXR. By achieving performance on par with task-specific models, our work establishes a scalable paradigm for synergistic medical image understanding and generation. Codes and models are available at https://github.com/ZrH42/UniX.
PDF151January 22, 2026