UniCorn: Hacia Modelos Multimodales Unificados de Automejora mediante Supervisión Autogenerada
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
January 6, 2026
Autores: Ruiyan Han, Zhen Fang, XinYu Sun, Yuchen Ma, Ziheng Wang, Yu Zeng, Zehui Chen, Lin Chen, Wenxuan Huang, Wei-Jie Xu, Yi Cao, Feng Zhao
cs.AI
Resumen
Si bien los Modelos Multimodales Unificados (UMMs) han logrado un éxito notable en la comprensión multimodal, persiste una brecha significativa en su capacidad para aprovechar dicho conocimiento interno para una generación de alta calidad. Formalizamos esta discrepancia como Afasia de Conducción, un fenómeno en el que los modelos interpretan con precisión las entradas multimodales pero luchan por traducir esa comprensión en una síntesis fiel y controlable. Para abordar esto, proponemos UniCorn, un marco de auto-mejora simple pero elegante que elimina la necesidad de datos externos o supervisión de un modelo profesor. Al dividir un único UMM en tres roles colaborativos: Proponente, Resolvedor y Juez, UniCorn genera interacciones de alta calidad mediante autojuego y emplea la reconstrucción de patrones cognitivos para destilar la comprensión latente en señales generativas explícitas. Para validar la restauración de la coherencia multimodal, presentamos UniCycle, un benchmark de consistencia cíclica basado en un bucle de reconstrucción de Texto a Imagen a Texto. Experimentos exhaustivos demuestran que UniCorn logra mejoras integrales y sustanciales sobre el modelo base en seis benchmarks generales de generación de imágenes. Notablemente, alcanza un rendimiento de vanguardia (SOTA) en TIIF (73.8), DPG (86.8), CompBench (88.5) y UniCycle, mientras que además logra ganancias sustanciales de +5.0 en WISE y +6.5 en OneIG. Estos resultados subrayan que nuestro método mejora significativamente la generación de Texto a Imagen (T2I) manteniendo una comprensión robusta, demostrando la escalabilidad del refinamiento completamente auto-supervisado para la inteligencia multimodal unificada.
English
While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.