ChatPaper.aiChatPaper

UniCorn: на пути к самосовершенствующимся унифицированным мультимодальным моделям с помощью самоформируемого контроля

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

January 6, 2026
Авторы: Ruiyan Han, Zhen Fang, XinYu Sun, Yuchen Ma, Ziheng Wang, Yu Zeng, Zehui Chen, Lin Chen, Wenxuan Huang, Wei-Jie Xu, Yi Cao, Feng Zhao
cs.AI

Аннотация

Хотя унифицированные мультимодальные модели (UMM) достигли значительных успехов в кросс-модальном понимании, сохраняется существенный разрыв в их способности использовать эти внутренние знания для генерации высокого качества. Мы формализуем это расхождение как проводниковую афазию — феномен, при котором модели точно интерпретируют мультимодальные входные данные, но испытывают трудности с преобразованием этого понимания в достоверный и контролируемый синтез. Для решения этой проблемы мы предлагаем UniCorn, простую, но элегантную структуру самоусовершенствования, которая исключает необходимость во внешних данных или учительском контроле. Разделяя единую UMM на три совместные роли: Предлагающий, Решающий и Судья, UniCorn генерирует высококачественные взаимодействия через самодостаточную игру и использует реконструкцию когнитивных паттернов, чтобы преобразовать скрытое понимание в явные генеративные сигналы. Для проверки восстановления мультимодальной согласованности мы представляем UniCycle — бенчмарк цикличной согласованности, основанный на петле реконструкции Текст → Изображение → Текст. Многочисленные эксперименты демонстрируют, что UniCorn достигает всестороннего и существенного улучшения базовой модели в шести общих бенчмарках генерации изображений. Примечательно, что метод показывает состояние искусства на TIIF (73.8), DPG (86.8), CompBench (88.5) и UniCycle, одновременно демонстрируя значительный прирост +5.0 на WISE и +6.5 на OneIG. Эти результаты подчеркивают, что наш метод значительно улучшает генерацию по текстовому описанию (T2I), сохраняя при этом надежное понимание, и демонстрирует масштабируемость полностью самоконтролируемой доработки для унифицированного мультимодального интеллекта.
English
While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.
PDF252January 8, 2026