UniCorn: Rumo a Modelos Multimodais Unificados de Autoaperfeiçoamento por meio de Supervisão Autogerada

Resumo

Embora os Modelos Multimodais Unificados (UMMs) tenham alcançado sucesso notável na compreensão cruzada de modalidades, uma lacuna significativa persiste em sua capacidade de aproveitar tal conhecimento interno para geração de alta qualidade. Formalizamos essa discrepância como Afasia de Condução, um fenômeno em que os modelos interpretam com precisão entradas multimodais, mas lutam para traduzir esse entendimento em uma síntese fiel e controlável. Para resolver isso, propomos o UniCorn, uma estrutura de autossuperação simples, porém elegante, que elimina a necessidade de dados externos ou supervisão de um modelo professor. Ao particionar um único UMM em três funções colaborativas: Propositor, Solucionador e Juiz, o UniCorn gera interações de alta qualidade via autojogo e emprega a reconstrução de padrões cognitivos para destilar o entendimento latente em sinais gerativos explícitos. Para validar a restauração da coerência multimodal, introduzimos o UniCycle, um benchmark de consistência cíclica baseado em um loop de reconstrução Texto para Imagem para Texto. Experimentos extensivos demonstram que o UniCorn alcança melhorias abrangentes e substanciais sobre o modelo base em seis benchmarks gerais de geração de imagem. Notavelmente, ele atinge desempenho de estado da arte no TIIF(73.8), DPG(86.8), CompBench(88.5) e UniCycle, enquanto ainda proporciona ganhos substanciais de +5.0 no WISE e +6.5 no OneIG. Esses resultados destacam que nosso método melhora significativamente a geração de T2I, mantendo uma compreensão robusta, demonstrando a escalabilidade do refinamento totalmente autossupervisionado para a inteligência multimodal unificada.

English

While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.

UniCorn: Rumo a Modelos Multimodais Unificados de Autoaperfeiçoamento por meio de Supervisão Autogerada

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Resumo

Support