ChatPaper.aiChatPaper

UniCorn : Vers des modèles multimodaux unifiés auto-améliorés par une supervision auto-générée

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

January 6, 2026
papers.authors: Ruiyan Han, Zhen Fang, XinYu Sun, Yuchen Ma, Ziheng Wang, Yu Zeng, Zehui Chen, Lin Chen, Wenxuan Huang, Wei-Jie Xu, Yi Cao, Feng Zhao
cs.AI

papers.abstract

Bien que les modèles multimodaux unifiés (UMM) aient obtenu un succès remarquable en compréhension cross-modale, un écart significatif persiste dans leur capacité à exploiter ces connaissances internes pour une génération de haute qualité. Nous formalisons cet écart sous le nom d'Aphasie de Conduction, un phénomène où les modèles interprètent avec précision les entrées multimodales mais peinent à traduire cette compréhension en une synthèse fidèle et contrôlable. Pour y remédier, nous proposons UniCorn, un cadre d'auto-amélioration simple mais élégant qui élimine le besoin de données externes ou de supervision par un enseignant. En partitionnant un seul UMM en trois rôles collaboratifs : Proposant, Solveur et Juge, UniCorn génère des interactions de haute qualité via l'auto-jeu et utilise la reconstruction de motifs cognitifs pour distiller la compréhension latente en signaux génératifs explicites. Pour valider la restauration de la cohérence multimodale, nous introduisons UniCycle, un benchmark de cohérence cyclique basé sur une boucle de reconstruction Texte vers Image vers Texte. Des expériences approfondies démontrent qu'UniCorn obtient des améliorations complètes et substantielles par rapport au modèle de base sur six benchmarks généraux de génération d'images. Notamment, il atteint des performances SOTA sur TIIF (73,8), DPG (86,8), CompBench (88,5) et UniCycle, tout en réalisant des gains substantiels supplémentaires de +5,0 sur WISE et +6,5 sur OneIG. Ces résultats soulignent que notre méthode améliore significativement la génération T2I tout en maintenant une compréhension robuste, démontrant l'évolutivité d'un raffinement entièrement auto-supervisé pour l'intelligence multimodale unifiée.
English
While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.
PDF252January 8, 2026