UniCorn: Op Weg Naar Zelfverbeterende Geünificeerde Multimodale Modellen via Zelfgegenereerde Supervisie
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
January 6, 2026
Auteurs: Ruiyan Han, Zhen Fang, XinYu Sun, Yuchen Ma, Ziheng Wang, Yu Zeng, Zehui Chen, Lin Chen, Wenxuan Huang, Wei-Jie Xu, Yi Cao, Feng Zhao
cs.AI
Samenvatting
Hoewel Unified Multimodal Models (UMM's) opmerkelijke successen hebben geboekt in cross-modale begripsvorming, bestaat er een aanzienlijke kloof in hun vermogen om deze interne kennis aan te wenden voor hoogwaardige generatie. Wij formaliseren deze discrepantie als Conductieafasie, een fenomeen waarbij modellen multimodale invoer correct interpreteren, maar moeite hebben om dit begrip om te zetten in getrouwe en controleerbare synthese. Om dit aan te pakken, stellen wij UniCorn voor, een eenvoudig maar elegant zelfverbeteringsraamwerk dat geen externe data of supervisie door een leraarmodel vereist. Door een enkel UMM op te delen in drie collaboratieve rollen – Proposer, Solver en Judge – genereert UniCorn hoogwaardige interacties via zelfspel en gebruikt het cognitieve patroonreconstructie om latent begrip te destilleren tot expliciete generatieve signalen. Om het herstel van multimodale coherentie te valideren, introduceren wij UniCycle, een cycle-consistency benchmark gebaseerd op een Text naar Image naar Text reconstructielus. Uitgebreide experimenten tonen aan dat UniCorn uitgebreide en substantiële verbeteringen bereikt ten opzichte van het basismodel op zes algemene beeldgeneratiebenchmarks. Met name behaalt het SOTA-prestaties op TIIF (73.8), DPG (86.8), CompBench (88.5) en UniCycle, terwijl het bovendien substantiële winsten boekt van +5.0 op WISE en +6.5 op OneIG. Deze resultaten benadrukken dat onze methode de T2I-generatie aanzienlijk verbetert terwijl een robuust begrip behouden blijft, wat de schaalbaarheid aantoont van volledig zelfgesuperviseerde verfijning voor verenigde multimodale intelligentie.
English
While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.