ChatPaper.aiChatPaper

SenseNova-U1 : Unification de la compréhension et de la génération multimodales avec l'architecture NEO-unify

SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

May 12, 2026
Auteurs: Haiwen Diao, Penghao Wu, Hanming Deng, Jiahao Wang, Shihao Bai, Silei Wu, Weichen Fan, Wenjie Ye, Wenwen Tong, Xiangyu Fan, Yan Li, Yubo Wang, Zhijie Cao, Zhiqian Lin, Zhitao Yang, Zhongang Cai, Yuwei Niu, Yue Zhu, Bo Liu, Chengguang Lv, Haojia Yu, Haozhe Xie, Hongli Wang, Jianan Fan, Jiaqi Li, Jiefan Lu, Jingcheng Ni, Junxiang Xu, Kaihuan Liang, Lianqiang Shi, Linjun Dai, Linyan Wang, Oscar Qian, Peng Gao, Pengfei Liu, Qingping Sun, Rui Shen, Ruisi Wang, Shengnan Ma, Shuang Yang, Siyi Xie, Siying Li, Tianbo Zhong, Xiangli Kong, Xuanke Shi, Yang Gao, Yongqiang Yao, Yves Wang, Zhengqi Bai, Zhengyu Lin, Zixin Yin, Wenxiu Sun, Ruihao Gong, Quan Wang, Lewei Lu, Lei Yang, Ziwei Liu, Dahua Lin
cs.AI

Résumé

Les récents grands modèles vision-langage (VLM) restent fondamentalement contraints par une dichotomie persistante : la compréhension et la génération sont traitées comme des problèmes distincts, conduisant à des architectures fragmentées, des pipelines en cascade et des espaces de représentation désalignés. Nous soutenons que cette division n'est pas simplement un artefact d'ingénierie, mais une limitation structurelle qui entrave l'émergence d'une intelligence multimodale native. C'est pourquoi nous introduisons SenseNova-U1, un paradigme multimodal unifié natif construit sur NEO-unify, dans lequel la compréhension et la génération évoluent comme des vues synergétiques d'un seul processus sous-jacent. Nous déployons deux variantes unifiées natives, SenseNova-U1-8B-MoT et SenseNova-U1-A3B-MoT, construites respectivement sur des lignes de base de compréhension dense (8B) et mixture-of-experts (30B-A3B). Conçues à partir de principes fondamentaux, elles rivalisent avec les VLM de premier plan dédiés uniquement à la compréhension dans les domaines de la compréhension textuelle, de la perception vision-langage, du raisonnement basé sur la connaissance, de la prise de décision agentique et de l'intelligence spatiale. Parallèlement, elles offrent une forte cohérence sémantique et une fidélité visuelle, excellant dans la synthèse any-to-image (X2I) conventionnelle ou intensive en connaissances, la génération d'infographies complexes riches en texte, et la génération vision-langage entrelacée, avec ou sans patterns de réflexion. Au-delà des performances, nous présentons en détail la conception du modèle, le prétraitement des données, les stratégies de pré/post-entraînement et d'inférence pour soutenir la recherche communautaire. Enfin, des preuves préliminaires montrent que nos modèles vont au-delà de la perception et de la génération, obtenant de bonnes performances dans les scénarios vision-langage-action (VLA) et modèle du monde (WM). Cela indique une feuille de route plus large où les modèles ne traduisent pas entre les modalités, mais pensent et agissent à travers elles de manière native. L'IA multimodale ne consiste plus à connecter des systèmes séparés, mais à construire un système unifié et à faire confiance aux capacités nécessaires pour émerger de l'intérieur.
English
Recent large vision-language models (VLMs) remain fundamentally constrained by a persistent dichotomy: understanding and generation are treated as distinct problems, leading to fragmented architectures, cascaded pipelines, and misaligned representation spaces. We argue that this divide is not merely an engineering artifact, but a structural limitation that hinders the emergence of native multimodal intelligence. Hence, we introduce SenseNova-U1, a native unified multimodal paradigm built upon NEO-unify, in which understanding and generation evolve as synergistic views of a single underlying process. We launch two native unified variants, SenseNova-U1-8B-MoT and SenseNova-U1-A3B-MoT, built on dense (8B) and mixture-of-experts (30B-A3B) understanding baselines, respectively. Designed from first principles, they rival top-tier understanding-only VLMs across text understanding, vision-language perception, knowledge reasoning, agentic decision-making, and spatial intelligence. Meanwhile, they deliver strong semantic consistency and visual fidelity, excelling in conventional or knowledge-intensive any-to-image (X2I) synthesis, complex text-rich infographic generation, and interleaved vision-language generation, with or without think patterns. Beyond performance, we show detailed model design, data preprocessing, pre-/post-training, and inference strategies to support community research. Last but not least, preliminary evidence demonstrates that our models extend beyond perception and generation, performing strongly in vision-language-action (VLA) and world model (WM) scenarios. This points toward a broader roadmap where models do not translate between modalities, but think and act across them in a native manner. Multimodal AI is no longer about connecting separate systems, but about building a unified one and trusting the necessary capabilities to emerge from within.
PDF1141May 14, 2026