UniX: Unificando a Autoregressão e a Difusão para a Compreensão e Geração de Radiografias de Tórax
UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation
January 16, 2026
Autores: Ruiheng Zhang, Jingfeng Yao, Huangxuan Zhao, Hao Yan, Xiao He, Lei Chen, Zhou Wei, Yong Luo, Zengmao Wang, Lefei Zhang, Dacheng Tao, Bo Du
cs.AI
Resumo
Apesar dos recentes avanços, os modelos de base médica ainda lutam para unificar a compreensão visual e a geração, uma vez que estas tarefas possuem objetivos inerentemente conflitantes: abstração semântica versus reconstrução a nível de pixel. As abordagens existentes, tipicamente baseadas em arquiteturas autorregressivas com parâmetros partilhados, frequentemente resultam num desempenho comprometido numa ou em ambas as tarefas. Para resolver isto, apresentamos o UniX, um modelo de base médida unificado de próxima geração para compreensão e geração de radiografias torácicas. O UniX desacopla as duas tarefas num ramo autorregressivo para compreensão e num ramo de difusão para geração de alta fidelidade. Crucialmente, é introduzido um mecanismo de auto-atenção cruzada para guiar dinamicamente o processo de geração com características de compreensão. Aliado a um pipeline rigoroso de limpeza de dados e a uma estratégia de treino multiestágio, esta arquitetura permite uma colaboração sinérgica entre as tarefas, ao mesmo tempo que aproveita os pontos fortes dos modelos de difusão para uma geração superior. Em dois benchmarks representativos, o UniX alcança uma melhoria de 46,1% no desempenho de compreensão (Micro-F1) e um ganho de 24,2% na qualidade de geração (FD-RadDino), utilizando apenas um quarto dos parâmetros do LLM-CXR. Ao alcançar um desempenho equiparável ao de modelos específicos por tarefa, o nosso trabalho estabelece um paradigma escalável para a compreensão e geração sinérgica de imagens médicas. Os códigos e modelos estão disponíveis em https://github.com/ZrH42/UniX.
English
Despite recent progress, medical foundation models still struggle to unify visual understanding and generation, as these tasks have inherently conflicting goals: semantic abstraction versus pixel-level reconstruction. Existing approaches, typically based on parameter-shared autoregressive architectures, frequently lead to compromised performance in one or both tasks. To address this, we present UniX, a next-generation unified medical foundation model for chest X-ray understanding and generation. UniX decouples the two tasks into an autoregressive branch for understanding and a diffusion branch for high-fidelity generation. Crucially, a cross-modal self-attention mechanism is introduced to dynamically guide the generation process with understanding features. Coupled with a rigorous data cleaning pipeline and a multi-stage training strategy, this architecture enables synergistic collaboration between tasks while leveraging the strengths of diffusion models for superior generation. On two representative benchmarks, UniX achieves a 46.1% improvement in understanding performance (Micro-F1) and a 24.2% gain in generation quality (FD-RadDino), using only a quarter of the parameters of LLM-CXR. By achieving performance on par with task-specific models, our work establishes a scalable paradigm for synergistic medical image understanding and generation. Codes and models are available at https://github.com/ZrH42/UniX.