SenseNova-U1: Vereinheitlichung von multimodalem Verständnis und Generierung mit der NEO-unify-Architektur
SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture
May 12, 2026
Autoren: Haiwen Diao, Penghao Wu, Hanming Deng, Jiahao Wang, Shihao Bai, Silei Wu, Weichen Fan, Wenjie Ye, Wenwen Tong, Xiangyu Fan, Yan Li, Yubo Wang, Zhijie Cao, Zhiqian Lin, Zhitao Yang, Zhongang Cai, Yuwei Niu, Yue Zhu, Bo Liu, Chengguang Lv, Haojia Yu, Haozhe Xie, Hongli Wang, Jianan Fan, Jiaqi Li, Jiefan Lu, Jingcheng Ni, Junxiang Xu, Kaihuan Liang, Lianqiang Shi, Linjun Dai, Linyan Wang, Oscar Qian, Peng Gao, Pengfei Liu, Qingping Sun, Rui Shen, Ruisi Wang, Shengnan Ma, Shuang Yang, Siyi Xie, Siying Li, Tianbo Zhong, Xiangli Kong, Xuanke Shi, Yang Gao, Yongqiang Yao, Yves Wang, Zhengqi Bai, Zhengyu Lin, Zixin Yin, Wenxiu Sun, Ruihao Gong, Quan Wang, Lewei Lu, Lei Yang, Ziwei Liu, Dahua Lin
cs.AI
Zusammenfassung
Aktuelle große Vision-Language-Modelle (VLMs) bleiben grundlegend durch eine anhaltende Dichotomie eingeschränkt: Verstehen und Generierung werden als getrennte Probleme behandelt, was zu fragmentierten Architekturen, kaskadierten Pipelines und nicht aufeinander abgestimmten Repräsentationsräumen führt. Wir argumentieren, dass diese Trennung nicht nur ein technisches Artefakt ist, sondern eine strukturelle Einschränkung, die das Entstehen natives multimodaler Intelligenz behindert. Daher stellen wir SenseNova-U1 vor, ein natives, einheitliches multimodales Paradigma, das auf NEO-unify aufbaut, in dem sich Verstehen und Generierung als synergetische Perspektiven eines einzigen zugrundeliegenden Prozesses entwickeln. Wir veröffentlichen zwei native, einheitliche Varianten, SenseNova-U1-8B-MoT und SenseNova-U1-A3B-MoT, die auf dichten (8B) beziehungsweise Mixture-of-Experts (30B-A3B) Verstehens-Baselines aufbauen. Von Grundprinzipien aus entworfen, konkurrieren sie mit führenden, rein verstehensorientierten VLMs in den Bereichen Textverständnis, visuell-sprachliche Wahrnehmung, Wissenslogik, agentische Entscheidungsfindung und räumliche Intelligenz. Gleichzeitig liefern sie eine starke semantische Konsistenz und visuelle Wiedergabetreue und zeichnen sich durch konventionelle oder wissensintensive Any-to-Image (X2I)-Synthese, komplexe textreiche Infografik-Generierung und verschränkte Vision-Language-Generierung aus, mit oder ohne Denkmuster (Think Patterns). Über die Leistung hinaus zeigen wir detaillierte Modelldesigns, Datenvorverarbeitungs-, Vor-/Nach-Trainings- und Inferenzstrategien zur Unterstützung der Community-Forschung. Nicht zuletzt liefern vorläufige Belege, dass unsere Modelle über Wahrnehmung und Generierung hinausgehen und in Vision-Language-Action (VLA)- und Weltmodell (WM)-Szenarien starke Leistungen erbringen. Dies weist auf eine breitere Roadmap hin, in der Modelle nicht zwischen Modalitäten übersetzen, sondern auf native Weise über sie hinweg denken und handeln. Multimodale KI dreht sich nicht mehr um die Verbindung separater Systeme, sondern um den Aufbau eines einheitlichen Systems und das Vertrauen darauf, dass die notwendigen Fähigkeiten aus ihm selbst heraus entstehen.
English
Recent large vision-language models (VLMs) remain fundamentally constrained by a persistent dichotomy: understanding and generation are treated as distinct problems, leading to fragmented architectures, cascaded pipelines, and misaligned representation spaces. We argue that this divide is not merely an engineering artifact, but a structural limitation that hinders the emergence of native multimodal intelligence. Hence, we introduce SenseNova-U1, a native unified multimodal paradigm built upon NEO-unify, in which understanding and generation evolve as synergistic views of a single underlying process. We launch two native unified variants, SenseNova-U1-8B-MoT and SenseNova-U1-A3B-MoT, built on dense (8B) and mixture-of-experts (30B-A3B) understanding baselines, respectively. Designed from first principles, they rival top-tier understanding-only VLMs across text understanding, vision-language perception, knowledge reasoning, agentic decision-making, and spatial intelligence. Meanwhile, they deliver strong semantic consistency and visual fidelity, excelling in conventional or knowledge-intensive any-to-image (X2I) synthesis, complex text-rich infographic generation, and interleaved vision-language generation, with or without think patterns. Beyond performance, we show detailed model design, data preprocessing, pre-/post-training, and inference strategies to support community research. Last but not least, preliminary evidence demonstrates that our models extend beyond perception and generation, performing strongly in vision-language-action (VLA) and world model (WM) scenarios. This points toward a broader roadmap where models do not translate between modalities, but think and act across them in a native manner. Multimodal AI is no longer about connecting separate systems, but about building a unified one and trusting the necessary capabilities to emerge from within.