ChatPaper.aiChatPaper

UniX: Unificación de la Autorregresión y la Difusión para la Comprensión y Generación de Radiografías de Tórax

UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

January 16, 2026
Autores: Ruiheng Zhang, Jingfeng Yao, Huangxuan Zhao, Hao Yan, Xiao He, Lei Chen, Zhou Wei, Yong Luo, Zengmao Wang, Lefei Zhang, Dacheng Tao, Bo Du
cs.AI

Resumen

A pesar de los avances recientes, los modelos fundacionales médicos aún tienen dificultades para unificar la comprensión visual y la generación, ya que estas tareas tienen objetivos inherentemente conflictivos: abstracción semántica versus reconstrucción a nivel de píxel. Los enfoques existentes, típicamente basados en arquitecturas autorregresivas de parámetros compartidos, frecuentemente conducen a un rendimiento comprometido en una o ambas tareas. Para abordar esto, presentamos UniX, un modelo fundacional médico unificado de próxima generación para la comprensión y generación de radiografías de tórax. UniX desacopla las dos tareas en una rama autorregresiva para la comprensión y una rama de difusión para la generación de alta fidelidad. Crucialmente, se introduce un mecanismo de autoatención cross-modal para guiar dinámicamente el proceso de generación con características de comprensión. Junto con un riguroso pipeline de limpieza de datos y una estrategia de entrenamiento multi-etapa, esta arquitectura permite una colaboración sinérgica entre tareas mientras aprovecha las fortalezas de los modelos de difusión para una generación superior. En dos benchmarks representativos, UniX logra una mejora del 46.1% en el rendimiento de comprensión (Micro-F1) y una ganancia del 24.2% en la calidad de generación (FD-RadDino), utilizando solo un cuarto de los parámetros de LLM-CXR. Al lograr un rendimiento comparable al de modelos específicos por tarea, nuestro trabajo establece un paradigma escalable para la comprensión y generación sinérgica de imágenes médicas. Los códigos y modelos están disponibles en https://github.com/ZrH42/UniX.
English
Despite recent progress, medical foundation models still struggle to unify visual understanding and generation, as these tasks have inherently conflicting goals: semantic abstraction versus pixel-level reconstruction. Existing approaches, typically based on parameter-shared autoregressive architectures, frequently lead to compromised performance in one or both tasks. To address this, we present UniX, a next-generation unified medical foundation model for chest X-ray understanding and generation. UniX decouples the two tasks into an autoregressive branch for understanding and a diffusion branch for high-fidelity generation. Crucially, a cross-modal self-attention mechanism is introduced to dynamically guide the generation process with understanding features. Coupled with a rigorous data cleaning pipeline and a multi-stage training strategy, this architecture enables synergistic collaboration between tasks while leveraging the strengths of diffusion models for superior generation. On two representative benchmarks, UniX achieves a 46.1% improvement in understanding performance (Micro-F1) and a 24.2% gain in generation quality (FD-RadDino), using only a quarter of the parameters of LLM-CXR. By achieving performance on par with task-specific models, our work establishes a scalable paradigm for synergistic medical image understanding and generation. Codes and models are available at https://github.com/ZrH42/UniX.
PDF151January 22, 2026