UniGame: Transformando um Modelo Multimodal Unificado em seu Próprio Adversário
UniGame: Turning a Unified Multimodal Model Into Its Own Adversary
November 24, 2025
Autores: Zhaolong Su, Wang Lu, Hao Chen, Sharon Li, Jindong Wang
cs.AI
Resumo
Os Modelos Multimodais Unificados (UMMs) demonstraram desempenho impressionante em compreensão e geração com uma única arquitetura. No entanto, os UMMs ainda exibem uma inconsistência fundamental: a compreensão favorece *embeddings* compactos, enquanto a geração favorece representações ricas em reconstrução. Este compromisso estrutural produz limites de decisão desalinhados, coerência multimodal degradada e maior vulnerabilidade sob mudanças distribucionais e adversárias. Neste artigo, apresentamos o UniGame, uma estrutura de pós-treinamento auto-adversarial que visa diretamente as inconsistências. Ao aplicar um perturbador leve na interface de *token* compartilhada, o UniGame permite que o ramo de geração procure e desafie ativamente a compreensão frágil, transformando o próprio modelo em seu próprio adversário. Experimentos demonstram que o UniGame melhora significativamente a consistência (+4,6%). Além disso, também alcança melhorias substanciais na compreensão (+3,6%), geração (+0,02), robustez fora da distribuição e adversária (+4,8% e +6,2% no NaturalBench e AdVQA). A estrutura é agnóstica à arquitetura, introduz menos de 1% de parâmetros adicionais e é complementar aos métodos de pós-treinamento existentes. Esses resultados posicionam o autojogo adversarial como um princípio geral e eficaz para melhorar a coerência, estabilidade e competência unificada dos futuros modelos fundamentais multimodais. O código oficial está disponível em: https://github.com/AIFrontierLab/UniGame
English
Unified Multimodal Models (UMMs) have shown impressive performance in both understanding and generation with a single architecture. However, UMMs still exhibit a fundamental inconsistency: understanding favors compact embeddings, whereas generation favors reconstruction-rich representations. This structural trade-off produces misaligned decision boundaries, degraded cross-modal coherence, and heightened vulnerability under distributional and adversarial shifts. In this paper, we present UniGame, a self-adversarial post-training framework that directly targets the inconsistencies. By applying a lightweight perturber at the shared token interface, UniGame enables the generation branch to actively seek and challenge fragile understanding, turning the model itself into its own adversary. Experiments demonstrate that UniGame significantly improves the consistency (+4.6%). Moreover, it also achieves substantial improvements in understanding (+3.6%), generation (+0.02), out-of-distribution and adversarial robustness (+4.8% and +6.2% on NaturalBench and AdVQA). The framework is architecture-agnostic, introduces less than 1% additional parameters, and is complementary to existing post-training methods. These results position adversarial self-play as a general and effective principle for enhancing the coherence, stability, and unified competence of future multimodal foundation models. The official code is available at: https://github.com/AIFrontierLab/UniGame