UniGame: Convertir un modelo multimodal unificado en su propio adversario
UniGame: Turning a Unified Multimodal Model Into Its Own Adversary
November 24, 2025
Autores: Zhaolong Su, Wang Lu, Hao Chen, Sharon Li, Jindong Wang
cs.AI
Resumen
Los Modelos Multimodales Unificados (UMMs) han demostrado un rendimiento impresionante tanto en comprensión como en generación con una única arquitectura. Sin embargo, los UMMs aún presentan una inconsistencia fundamental: la comprensión favorece incrustaciones compactas, mientras que la generación favorece representaciones ricas en reconstrucción. Esta disyuntiva estructural produce límites de decisión desalineados, coherencia cross-modal degradada y una mayor vulnerabilidad ante cambios distribucionales y adversarios. En este artículo, presentamos UniGame, un marco de post-entrenamiento auto-adversario que aborda directamente estas inconsistencias. Al aplicar un perturbador ligero en la interfaz de tokens compartida, UniGame permite que la rama de generación busque y desafie activamente la comprensión frágil, convirtiendo al propio modelo en su propio adversario. Los experimentos demuestran que UniGame mejora significativamente la coherencia (+4,6%). Además, también logra mejoras sustanciales en comprensión (+3,6%), generación (+0,02), y robustez fuera de distribución y ante adversarios (+4,8% y +6,2% en NaturalBench y AdVQA). El marco es independiente de la arquitectura, introduce menos del 1% de parámetros adicionales y es complementario a los métodos de post-entrenamiento existentes. Estos resultados posicionan el auto-juego adversario como un principio general y eficaz para mejorar la coherencia, estabilidad y competencia unificada de los futuros modelos de base multimodales. El código oficial está disponible en: https://github.com/AIFrontierLab/UniGame
English
Unified Multimodal Models (UMMs) have shown impressive performance in both understanding and generation with a single architecture. However, UMMs still exhibit a fundamental inconsistency: understanding favors compact embeddings, whereas generation favors reconstruction-rich representations. This structural trade-off produces misaligned decision boundaries, degraded cross-modal coherence, and heightened vulnerability under distributional and adversarial shifts. In this paper, we present UniGame, a self-adversarial post-training framework that directly targets the inconsistencies. By applying a lightweight perturber at the shared token interface, UniGame enables the generation branch to actively seek and challenge fragile understanding, turning the model itself into its own adversary. Experiments demonstrate that UniGame significantly improves the consistency (+4.6%). Moreover, it also achieves substantial improvements in understanding (+3.6%), generation (+0.02), out-of-distribution and adversarial robustness (+4.8% and +6.2% on NaturalBench and AdVQA). The framework is architecture-agnostic, introduces less than 1% additional parameters, and is complementary to existing post-training methods. These results position adversarial self-play as a general and effective principle for enhancing the coherence, stability, and unified competence of future multimodal foundation models. The official code is available at: https://github.com/AIFrontierLab/UniGame