UniGame: Trasformare un Modello Multimodale Unificato nel Proprio Avversario
UniGame: Turning a Unified Multimodal Model Into Its Own Adversary
November 24, 2025
Autori: Zhaolong Su, Wang Lu, Hao Chen, Sharon Li, Jindong Wang
cs.AI
Abstract
I modelli multimodali unificati (UMM) hanno dimostrato prestazioni impressionanti sia nella comprensione che nella generazione con una singola architettura. Tuttavia, gli UMM mostrano ancora un'incongruenza fondamentale: la comprensione favorisce embedding compatti, mentre la generazione favorisce rappresentazioni ricche per la ricostruzione. Questo compromesso strutturale produce confini decisionali disallineati, coerenza cross-modale degradata e una maggiore vulnerabilità sotto variazioni distributive e avversariali. In questo articolo, presentiamo UniGame, un framework di post-addestramento auto-avversario che mira direttamente alle incongruenze. Applicando un perturbatore leggero all'interfaccia condivisa dei token, UniGame consente al ramo di generazione di cercare attivamente e sfidare la comprensione fragile, trasformando il modello stesso nel proprio avversario. Gli esperimenti dimostrano che UniGame migliora significativamente la coerenza (+4,6%). Inoltre, ottiene anche sostanziali miglioramenti nella comprensione (+3,6%), nella generazione (+0,02), e nella robustezza out-of-distribution e avversaria (+4,8% e +6,2% su NaturalBench e AdVQA). Il framework è indipendente dall'architettura, introduce meno dell'1% di parametri aggiuntivi ed è complementare ai metodi di post-addestramento esistenti. Questi risultati posizionano l'auto-gioco avversario come un principio generale ed efficace per migliorare la coerenza, la stabilità e la competenza unificata dei futuri modelli fondazionali multimodali. Il codice ufficiale è disponibile all'indirizzo: https://github.com/AIFrontierLab/UniGame
English
Unified Multimodal Models (UMMs) have shown impressive performance in both understanding and generation with a single architecture. However, UMMs still exhibit a fundamental inconsistency: understanding favors compact embeddings, whereas generation favors reconstruction-rich representations. This structural trade-off produces misaligned decision boundaries, degraded cross-modal coherence, and heightened vulnerability under distributional and adversarial shifts. In this paper, we present UniGame, a self-adversarial post-training framework that directly targets the inconsistencies. By applying a lightweight perturber at the shared token interface, UniGame enables the generation branch to actively seek and challenge fragile understanding, turning the model itself into its own adversary. Experiments demonstrate that UniGame significantly improves the consistency (+4.6%). Moreover, it also achieves substantial improvements in understanding (+3.6%), generation (+0.02), out-of-distribution and adversarial robustness (+4.8% and +6.2% on NaturalBench and AdVQA). The framework is architecture-agnostic, introduces less than 1% additional parameters, and is complementary to existing post-training methods. These results position adversarial self-play as a general and effective principle for enhancing the coherence, stability, and unified competence of future multimodal foundation models. The official code is available at: https://github.com/AIFrontierLab/UniGame