SenseNova-U1: NEO-unifyアーキテクチャによるマルチモーダル理解と生成の統合
SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture
May 12, 2026
著者: Haiwen Diao, Penghao Wu, Hanming Deng, Jiahao Wang, Shihao Bai, Silei Wu, Weichen Fan, Wenjie Ye, Wenwen Tong, Xiangyu Fan, Yan Li, Yubo Wang, Zhijie Cao, Zhiqian Lin, Zhitao Yang, Zhongang Cai, Yuwei Niu, Yue Zhu, Bo Liu, Chengguang Lv, Haojia Yu, Haozhe Xie, Hongli Wang, Jianan Fan, Jiaqi Li, Jiefan Lu, Jingcheng Ni, Junxiang Xu, Kaihuan Liang, Lianqiang Shi, Linjun Dai, Linyan Wang, Oscar Qian, Peng Gao, Pengfei Liu, Qingping Sun, Rui Shen, Ruisi Wang, Shengnan Ma, Shuang Yang, Siyi Xie, Siying Li, Tianbo Zhong, Xiangli Kong, Xuanke Shi, Yang Gao, Yongqiang Yao, Yves Wang, Zhengqi Bai, Zhengyu Lin, Zixin Yin, Wenxiu Sun, Ruihao Gong, Quan Wang, Lewei Lu, Lei Yang, Ziwei Liu, Dahua Lin
cs.AI
要旨
近年の大規模視覚言語モデル(VLM)は、根本的な二分法に依然として制約されている。すなわち、理解と生成を別個の問題として扱うことで、断片的なアーキテクチャ、カスケード型パイプライン、表現空間の不整合を招いているのである。我々は、この分断が単なる工学的産物ではなく、ネイティブなマルチモーダル知能の出現を阻む構造的限界であると主張する。そこで、我々はNEO-unifyを基盤としたネイティブ統合マルチモーダルパラダイム「SenseNova-U1」を提案する。本手法では、理解と生成が単一の基盤プロセスにおける相補的な視点として進化する。我々は、高密度(8B)および混合専門家モデル(30B-A3B)の理解ベースラインをそれぞれ基に、2種類のネイティブ統合モデル「SenseNova-U1-8B-MoT」および「SenseNova-U1-A3B-MoT」を公開する。これらは第一原理から設計され、テキスト理解、視覚言語認識、知識推論、エージェント的意志決定、空間知能において、最先端の理解専用VLMと同等の性能を発揮する。同時に、高い意味的一貫性と視覚的忠実性を実現し、従来型または知識集約型のあらゆる入力を画像に変換するX2I合成、複雑なテキストリッチなインフォグラフィック生成、思考パターンの有無にかかわらないインターリーブ型視覚言語生成において優れた成果を挙げている。性能面に加え、コミュニティ研究を支援するため、詳細なモデル設計、データ前処理、事前・事後学習、推論戦略を示す。最後に、本モデルが認識と生成を超え、視覚言語行動(VLA)や世界モデル(WM)シナリオにおいても高い性能を発揮する予備的証拠を提示する。これは、モデルがモダリティ間を翻訳するのではなく、ネイティブな形でモダリティを横断して思考・行動するという、より広範なロードマップを示唆している。マルチモーダルAIは、もはや別々のシステムを接続することではなく、統一されたシステムを構築し、必要な能力が内部から創発することを信じることである。
English
Recent large vision-language models (VLMs) remain fundamentally constrained by a persistent dichotomy: understanding and generation are treated as distinct problems, leading to fragmented architectures, cascaded pipelines, and misaligned representation spaces. We argue that this divide is not merely an engineering artifact, but a structural limitation that hinders the emergence of native multimodal intelligence. Hence, we introduce SenseNova-U1, a native unified multimodal paradigm built upon NEO-unify, in which understanding and generation evolve as synergistic views of a single underlying process. We launch two native unified variants, SenseNova-U1-8B-MoT and SenseNova-U1-A3B-MoT, built on dense (8B) and mixture-of-experts (30B-A3B) understanding baselines, respectively. Designed from first principles, they rival top-tier understanding-only VLMs across text understanding, vision-language perception, knowledge reasoning, agentic decision-making, and spatial intelligence. Meanwhile, they deliver strong semantic consistency and visual fidelity, excelling in conventional or knowledge-intensive any-to-image (X2I) synthesis, complex text-rich infographic generation, and interleaved vision-language generation, with or without think patterns. Beyond performance, we show detailed model design, data preprocessing, pre-/post-training, and inference strategies to support community research. Last but not least, preliminary evidence demonstrates that our models extend beyond perception and generation, performing strongly in vision-language-action (VLA) and world model (WM) scenarios. This points toward a broader roadmap where models do not translate between modalities, but think and act across them in a native manner. Multimodal AI is no longer about connecting separate systems, but about building a unified one and trusting the necessary capabilities to emerge from within.