UniCorn:自己生成された監督による自己改善型統合マルチモーダルモデルへのアプローチ
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
January 6, 2026
著者: Ruiyan Han, Zhen Fang, XinYu Sun, Yuchen Ma, Ziheng Wang, Yu Zeng, Zehui Chen, Lin Chen, Wenxuan Huang, Wei-Jie Xu, Yi Cao, Feng Zhao
cs.AI
要旨
統一マルチモーダルモデル(UMM)はマルチモーダル理解において顕著な成功を収めているが、その内部知識を高品質な生成に活用する能力には依然として大きな隔たりが存在する。我々はこの不一致を「伝導失語症」と形式化する。これはモデルがマルチモーダル入力を正確に解釈しながらも、その理解を忠実で制御可能な合成へ変換するのに苦戦する現象である。この問題に対処するため、我々は外部データや教師監督を必要としない簡潔かつ優雅な自己改善フレームワークUniCornを提案する。単一のUMMを提案者(Proposer)、解決者(Solver)、判定者(Judge)という3つの協調的役割に分割し、自己対戦を通じて高品質なインタラクションを生成するとともに、認知的パターン再構成によって潜在的理解を明示的な生成信号へ蒸留する。マルチモーダル一貫性の回復を検証するため、テキストから画像へ、さらにテキストへ再構成する循環一貫性ベンチマークUniCycleを導入した。大規模な実験により、UniCornが6つの一般画像生成ベンチマークにおいてベースモデルを包括的かつ大幅に改善することが実証された。特にTIIF(73.8)、DPG(86.8)、CompBench(88.5)、UniCycleでSOTA性能を達成し、さらにWISEで+5.0、OneIGで+6.5の大幅な向上を達成した。これらの結果は、本手法が堅牢な理解能力を維持しつつT2I生成を著しく強化することを示しており、統一マルチモーダル知能における完全自己監督型改良の拡張性を実証している。
English
While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.