UniX: Unificazione di Autoregressione e Diffusione per la Comprensione e Generazione di Radiografie del Torace

Abstract

Nonostante i recenti progressi, i modelli fondazionali in ambito medico continuano a lottare per unificare la comprensione visiva e la generazione, poiché questi compiti presentano obiettivi intrinsecamente conflittuali: astrazione semantica versus ricostruzione a livello di pixel. Gli approcci esistenti, tipicamente basati su architetture autoregressive a parametri condivisi, portano frequentemente a prestazioni compromesse in uno o in entrambi i compiti. Per affrontare questo problema, presentiamo UniX, un modello fondazionale medico unificato di prossima generazione per la comprensione e la generazione di radiografie del torace. UniX disaccoppia i due compiti in un ramo autoregressivo per la comprensione e un ramo di diffusione per la generazione ad alta fedeltà. In modo cruciale, viene introdotto un meccanismo di self-attention cross-modale per guidare dinamicamente il processo di generazione con le caratteristiche di comprensione. Abbinata a una pipeline rigorosa di pulizia dei dati e a una strategia di addestramento multi-stadio, questa architettura consente una collaborazione sinergica tra i compiti, sfruttando al contempo i punti di forza dei modelli di diffusione per una generazione superiore. Su due benchmark rappresentativi, UniX raggiunge un miglioramento del 46,1% nelle prestazioni di comprensione (Micro-F1) e un guadagno del 24,2% nella qualità della generazione (FD-RadDino), utilizzando solo un quarto dei parametri di LLM-CXR. Raggiungendo prestazioni paragonabili a quelle di modelli specifici per compito, il nostro lavoro stabilisce un paradigma scalabile per la comprensione e la generazione sinergica di immagini mediche. I codici e i modelli sono disponibili all'indirizzo https://github.com/ZrH42/UniX.

English

Despite recent progress, medical foundation models still struggle to unify visual understanding and generation, as these tasks have inherently conflicting goals: semantic abstraction versus pixel-level reconstruction. Existing approaches, typically based on parameter-shared autoregressive architectures, frequently lead to compromised performance in one or both tasks. To address this, we present UniX, a next-generation unified medical foundation model for chest X-ray understanding and generation. UniX decouples the two tasks into an autoregressive branch for understanding and a diffusion branch for high-fidelity generation. Crucially, a cross-modal self-attention mechanism is introduced to dynamically guide the generation process with understanding features. Coupled with a rigorous data cleaning pipeline and a multi-stage training strategy, this architecture enables synergistic collaboration between tasks while leveraging the strengths of diffusion models for superior generation. On two representative benchmarks, UniX achieves a 46.1% improvement in understanding performance (Micro-F1) and a 24.2% gain in generation quality (FD-RadDino), using only a quarter of the parameters of LLM-CXR. By achieving performance on par with task-specific models, our work establishes a scalable paradigm for synergistic medical image understanding and generation. Codes and models are available at https://github.com/ZrH42/UniX.

UniX: Unificazione di Autoregressione e Diffusione per la Comprensione e Generazione di Radiografie del Torace

UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

Abstract

Support