ChatPaper.aiChatPaper

UniCorn: Auf dem Weg zu sich selbst verbessernden einheitlichen multimodalen Modellen durch selbst generierte Aufsicht

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

January 6, 2026
papers.authors: Ruiyan Han, Zhen Fang, XinYu Sun, Yuchen Ma, Ziheng Wang, Yu Zeng, Zehui Chen, Lin Chen, Wenxuan Huang, Wei-Jie Xu, Yi Cao, Feng Zhao
cs.AI

papers.abstract

Während Unified Multimodal Models (UMMs) bemerkenswerte Erfolge im cross-modalen Verständnis erzielt haben, besteht nach wie vor eine erhebliche Lücke in ihrer Fähigkeit, dieses interne Wissen für hochwertige Generierung zu nutzen. Wir formalisieren diese Diskrepanz als Leitungsaphasie (Conduction Aphasia), ein Phänomen, bei dem Modelle multimodale Eingaben zwar korrekt interpretieren, es aber schwer haben, dieses Verständnis in eine zuverlässige und steuerbare Synthese zu übersetzen. Um dies zu adressieren, schlagen wir UniCorn vor, ein einfaches, aber elegantes Selbstverbesserungs-Framework, das externe Daten oder Teacher-Aufsicht überflüssig macht. Indem ein einzelnes UMM in drei zusammenarbeitende Rollen unterteilt wird – Proposer (Vorschlagender), Solver (Lösender) und Judge (Beurteilender) – generiert UniCorn hochwertige Interaktionen durch Self-Play und nutzt kognitive Musterrekonstruktion, um latentes Verständnis in explizite generative Signale zu destillieren. Um die Wiederherstellung der multimodalen Kohärenz zu validieren, führen wir UniCycle ein, einen Zyklus-Konsistenz-Benchmark, der auf einer Text-zu-Bild-zu-Text-Rekonstruktionsschleife basiert. Umfangreiche Experimente zeigen, dass UniCorn umfassende und substantielle Verbesserungen gegenüber dem Basismodell über sechs allgemeine Bildgenerierungs-Benchmarks hinweg erzielt. Bemerkenswerterweise erreicht es SOTA-Leistungen bei TIIF (73,8), DPG (86,8), CompBench (88,5) und UniCycle, während es gleichzeitig substantiale Steigerungen von +5,0 bei WISE und +6,5 bei OneIG erzielt. Diese Ergebnisse unterstreichen, dass unsere Methode die T2I-Generierung signifikant verbessert und dabei ein robustes Verständnis beibehält, was die Skalierbarkeit einer vollständig selbstüberwachten Verfeinerung für eine vereinheitlichte multimodale Intelligenz demonstriert.
English
While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.
PDF252January 8, 2026