UniGame: 통합 멀티모달 모델을 자체 적으로 만드는 적대적 방법
UniGame: Turning a Unified Multimodal Model Into Its Own Adversary
November 24, 2025
저자: Zhaolong Su, Wang Lu, Hao Chen, Sharon Li, Jindong Wang
cs.AI
초록
통합 멀티모달 모델(UMMs)은 단일 아키텍처로 이해와 생성 모두에서 인상적인 성능을 보여주고 있습니다. 그러나 UMMs는 여전히 근본적인 불일치를 보입니다. 이해는 컴팩트한 임베딩을 선호하는 반면, 생성은 재구축이 풍부한 표현을 선호하기 때문입니다. 이러한 구조적 트레이드오프는 정렬되지 않은 의사 결정 경계, 저하된 교차 모달 일관성, 그리고 분포 변화 및 적대적 변화 상황에서 취약성이 증가하는 결과를 낳습니다. 본 논문에서는 이러한 불일치를 직접적으로 해결하는 자체-적대적 사후 훈련 프레임워크인 UniGame을 제안합니다. 공유 토큰 인터페이스에 경량의 교란기를 적용함으로써 UniGame은 생성 분기가 취약한 이해를 능동적으로 탐색하고 도전하도록 하여 모델 자체를 자신의 적대자로 만듭니다. 실험 결과, UniGame이 일관성을 크게 향상시켰음을 보여줍니다(+4.6%). 또한 이해(+3.6%), 생성(+0.02), 분포 외 및 적대적 강건성(NaturalBench와 AdVQA에서 각각 +4.8%, +6.2%)에서도 상당한 개선을 달성했습니다. 이 프레임워크는 아키텍처에 독립적이며, 1% 미만의 추가 매개변수만 도입하고, 기존 사후 훈련 방법과 상호 보완적입니다. 이러한 결과는 적대적 자기 경험이 향후 멀티모달 기초 모델의 일관성, 안정성 및 통합 능력 향상을 위한 일반적이고 효과적인 원리로 자리매김함을 보여줍니다. 공식 코드는 https://github.com/AIFrontierLab/UniGame 에서 확인할 수 있습니다.
English
Unified Multimodal Models (UMMs) have shown impressive performance in both understanding and generation with a single architecture. However, UMMs still exhibit a fundamental inconsistency: understanding favors compact embeddings, whereas generation favors reconstruction-rich representations. This structural trade-off produces misaligned decision boundaries, degraded cross-modal coherence, and heightened vulnerability under distributional and adversarial shifts. In this paper, we present UniGame, a self-adversarial post-training framework that directly targets the inconsistencies. By applying a lightweight perturber at the shared token interface, UniGame enables the generation branch to actively seek and challenge fragile understanding, turning the model itself into its own adversary. Experiments demonstrate that UniGame significantly improves the consistency (+4.6%). Moreover, it also achieves substantial improvements in understanding (+3.6%), generation (+0.02), out-of-distribution and adversarial robustness (+4.8% and +6.2% on NaturalBench and AdVQA). The framework is architecture-agnostic, introduces less than 1% additional parameters, and is complementary to existing post-training methods. These results position adversarial self-play as a general and effective principle for enhancing the coherence, stability, and unified competence of future multimodal foundation models. The official code is available at: https://github.com/AIFrontierLab/UniGame