유니콘: 자체 생성 지도를 통한 자기 향상 통합 멀티모달 모델 구축 방향
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
January 6, 2026
저자: Ruiyan Han, Zhen Fang, XinYu Sun, Yuchen Ma, Ziheng Wang, Yu Zeng, Zehui Chen, Lin Chen, Wenxuan Huang, Wei-Jie Xu, Yi Cao, Feng Zhao
cs.AI
초록
통합 멀티모달 모델(UMMs)이 크로스모달 이해에서 놀라운 성과를 거두었음에도 불구하고, 이러한 내부 지식을 고품질 생성에 활용하는 능력에는 여전히 상당한 격차가 존재합니다. 우리는 이러한 불일치를 **전도 실어증(Conduction Aphasia)** 현상으로 규정합니다. 이는 모델이 멀티모달 입력을 정확하게 해석하지만, 그 이해를 충실하고 제어 가능한 합성으로 전환하는 데 어려움을 겪는 현상입니다. 이를 해결하기 위해 우리는 외부 데이터나 교사 감독이 필요 없는 간단하면서도 우아한 자기 개선 프레임워크인 **UniCorn**을 제안합니다. 단일 UMM을 제안자(Proposer), 해결자(Solver), 판단자(Judge)라는 세 가지 협력적 역할로 분할함으로써, UniCorn은 자기 경쟁(self-play)을 통해 고품질 상호작용을 생성하고 인지 패턴 재구성(cognitive pattern reconstruction)을 통해 잠재적 이해를 명시적 생성 신호로 추출합니다. 멀티모달 일관성 회복을 검증하기 위해, 텍스트 → 이미지 → 텍스트 재구성 루프를 기반으로 한 순환 일관성 벤치마크인 **UniCycle**을 도입했습니다. 광범위한 실험을 통해 UniCorn이 6개의 일반적인 이미지 생성 벤치마크에서 기본 모델 대비 포괄적이고 상당한 성능 향상을 달성함을 입증했습니다. 특히 TIIF(73.8), DPG(86.8), CompBench(88.5) 및 UniCycle에서 SOTA 성능을 달성했으며, WISE에서는 +5.0, OneIG에서는 +6.5의 상당한 추가 성능 향상을 보였습니다. 이러한 결과는 우리의 방법이 강력한 이해 능력을 유지하면서 T2I 생성 능력을 크게 향상시킴을 보여주며, 통합 멀티모달 인텔리전스를 위한 완전 자기 지도 정제의 확장성을 입증합니다.
English
While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.