UniCorn: Verso Modelli Multimodali Unificati che Migliorano Automaticamente Tramite Supervisione Auto-Generata

Abstract

Mentre i Modelli Multimodali Unificati (UMM) hanno ottenuto un notevole successo nella comprensione cross-modale, persiste un divario significativo nella loro capacità di sfruttare tale conoscenza interna per una generazione di alta qualità. Formalizziamo questa discrepanza come Afasia di Conduzione, un fenomeno in cui i modelli interpretano accuratamente gli input multimodali ma faticano a tradurre tale comprensione in una sintesi fedele e controllabile. Per affrontare questo problema, proponiamo UniCorn, un framework di auto-miglioramento semplice ma elegante che elimina la necessità di dati esterni o supervisione di un insegnante. Suddividendo un singolo UMM in tre ruoli collaborativi: Proponente, Risolutore e Giudice, UniCorn genera interazioni di alta qualità attraverso il self-play e impiega la ricostruzione di pattern cognitivi per distillare la comprensione latente in segnali generativi espliciti. Per convalidare il ripristino della coerenza multimodale, introduciamo UniCycle, un benchmark di cycle-consistency basato su un ciclo di ricostruzione da Testo a Immagine a Testo. Esperimenti estensivi dimostrano che UniCorn raggiunge miglioramenti completi e sostanziali rispetto al modello base su sei benchmark generali di generazione di immagini. In particolare, ottiene prestazioni all'avanguardia su TIIF(73.8), DPG(86.8), CompBench(88.5) e UniCycle, conseguendo inoltre guadagni sostanziali di +5.0 su WISE e +6.5 su OneIG. Questi risultati evidenziano che il nostro metodo migliora significativamente la generazione da testo a immagine (T2I) mantenendo al contempo una robusta comprensione, dimostrando la scalabilità dell'ottimizzazione completamente auto-supervisionata per l'intelligenza multimodale unificata.

English

While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.

UniCorn: Verso Modelli Multimodali Unificati che Migliorano Automaticamente Tramite Supervisione Auto-Generata

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Abstract

Support