SenseNova-U1: Унификация мультимодального понимания и генерации на основе архитектуры NEO-unify
SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture
May 12, 2026
Авторы: Haiwen Diao, Penghao Wu, Hanming Deng, Jiahao Wang, Shihao Bai, Silei Wu, Weichen Fan, Wenjie Ye, Wenwen Tong, Xiangyu Fan, Yan Li, Yubo Wang, Zhijie Cao, Zhiqian Lin, Zhitao Yang, Zhongang Cai, Yuwei Niu, Yue Zhu, Bo Liu, Chengguang Lv, Haojia Yu, Haozhe Xie, Hongli Wang, Jianan Fan, Jiaqi Li, Jiefan Lu, Jingcheng Ni, Junxiang Xu, Kaihuan Liang, Lianqiang Shi, Linjun Dai, Linyan Wang, Oscar Qian, Peng Gao, Pengfei Liu, Qingping Sun, Rui Shen, Ruisi Wang, Shengnan Ma, Shuang Yang, Siyi Xie, Siying Li, Tianbo Zhong, Xiangli Kong, Xuanke Shi, Yang Gao, Yongqiang Yao, Yves Wang, Zhengqi Bai, Zhengyu Lin, Zixin Yin, Wenxiu Sun, Ruihao Gong, Quan Wang, Lewei Lu, Lei Yang, Ziwei Liu, Dahua Lin
cs.AI
Аннотация
Недавние крупные мультимодальные модели «зрение-язык» (VLM) по-прежнему принципиально ограничены устойчивой дихотомией: понимание и генерация рассматриваются как отдельные задачи, что приводит к фрагментированным архитектурам, каскадным конвейерам и несогласованным пространствам представлений. Мы утверждаем, что это разделение является не просто инженерным артефактом, а структурным ограничением, препятствующим появлению нативного мультимодального интеллекта. В связи с этим мы представляем SenseNova-U1 — нативную единую мультимодальную парадигму, построенную на основе NEO-unify, в которой понимание и генерация эволюционируют как взаимодополняющие взгляды на единый базовый процесс. Мы запускаем два нативных единых варианта: SenseNova-U1-8B-MoT и SenseNova-U1-A3B-MoT, построенных на базовых моделях понимания плотной (8B) и смешанной архитектуры экспертов (30B-A3B) соответственно. Разработанные с нуля, они соперничают с лучшими VLM, ориентированными исключительно на понимание, в задачах понимания текста, зрительно-языкового восприятия, рассуждения на основе знаний, принятия агентивных решений и пространственного интеллекта. Кроме того, они демонстрируют высокую семантическую согласованность и визуальную точность, превосходно справляясь с традиционным или требующим фоновых знаний синтезом «любое-в-изображение» (X2I), генерацией сложных насыщенных текстом инфографик и перемежающейся зрительно-языковой генерацией, как с использованием паттернов размышления, так и без них. Помимо производительности, мы подробно описываем дизайн модели, предобработку данных, стратегии предварительного и пост-обучения, а также стратегии инференса для поддержки исследований сообщества. И последнее, но не менее важное: предварительные результаты демонстрируют, что наши модели выходят за рамки восприятия и генерации, показывая высокую эффективность в сценариях «зрение-язык-действие» (VLA) и моделей мира (WM). Это указывает на более широкий путь, где модели не переводят данные между модальностями, а мыслят и действуют сквозь них нативным образом. Мультимодальный ИИ — это больше не вопрос соединения отдельных систем, а построения единой, доверяя появлению необходимых способностей изнутри.
English
Recent large vision-language models (VLMs) remain fundamentally constrained by a persistent dichotomy: understanding and generation are treated as distinct problems, leading to fragmented architectures, cascaded pipelines, and misaligned representation spaces. We argue that this divide is not merely an engineering artifact, but a structural limitation that hinders the emergence of native multimodal intelligence. Hence, we introduce SenseNova-U1, a native unified multimodal paradigm built upon NEO-unify, in which understanding and generation evolve as synergistic views of a single underlying process. We launch two native unified variants, SenseNova-U1-8B-MoT and SenseNova-U1-A3B-MoT, built on dense (8B) and mixture-of-experts (30B-A3B) understanding baselines, respectively. Designed from first principles, they rival top-tier understanding-only VLMs across text understanding, vision-language perception, knowledge reasoning, agentic decision-making, and spatial intelligence. Meanwhile, they deliver strong semantic consistency and visual fidelity, excelling in conventional or knowledge-intensive any-to-image (X2I) synthesis, complex text-rich infographic generation, and interleaved vision-language generation, with or without think patterns. Beyond performance, we show detailed model design, data preprocessing, pre-/post-training, and inference strategies to support community research. Last but not least, preliminary evidence demonstrates that our models extend beyond perception and generation, performing strongly in vision-language-action (VLA) and world model (WM) scenarios. This points toward a broader roadmap where models do not translate between modalities, but think and act across them in a native manner. Multimodal AI is no longer about connecting separate systems, but about building a unified one and trusting the necessary capabilities to emerge from within.