SenseNova-U1: Unificando Compreensão e Geração Multimodal com a Arquitetura NEO-unify
SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture
May 12, 2026
Autores: Haiwen Diao, Penghao Wu, Hanming Deng, Jiahao Wang, Shihao Bai, Silei Wu, Weichen Fan, Wenjie Ye, Wenwen Tong, Xiangyu Fan, Yan Li, Yubo Wang, Zhijie Cao, Zhiqian Lin, Zhitao Yang, Zhongang Cai, Yuwei Niu, Yue Zhu, Bo Liu, Chengguang Lv, Haojia Yu, Haozhe Xie, Hongli Wang, Jianan Fan, Jiaqi Li, Jiefan Lu, Jingcheng Ni, Junxiang Xu, Kaihuan Liang, Lianqiang Shi, Linjun Dai, Linyan Wang, Oscar Qian, Peng Gao, Pengfei Liu, Qingping Sun, Rui Shen, Ruisi Wang, Shengnan Ma, Shuang Yang, Siyi Xie, Siying Li, Tianbo Zhong, Xiangli Kong, Xuanke Shi, Yang Gao, Yongqiang Yao, Yves Wang, Zhengqi Bai, Zhengyu Lin, Zixin Yin, Wenxiu Sun, Ruihao Gong, Quan Wang, Lewei Lu, Lei Yang, Ziwei Liu, Dahua Lin
cs.AI
Resumo
Modelos grandes de visão-linguagem (VLMs) recentes ainda enfrentam uma dicotomia persistente: compreensão e geração são tratadas como problemas distintos, resultando em arquiteturas fragmentadas, pipelines em cascata e espaços de representação desalinhados. Argumentamos que essa divisão não é apenas um artefato de engenharia, mas uma limitação estrutural que dificulta o surgimento de uma inteligência multimodal nativa. Assim, apresentamos o SenseNova-U1, um paradigma multimodal unificado nativo construído sobre o NEO-unify, no qual compreensão e geração evoluem como visões sinérgicas de um único processo subjacente. Lançamos duas variantes unificadas nativas, SenseNova-U1-8B-MoT e SenseNova-U1-A3B-MoT, construídas sobre linhas de base de compreensão densa (8B) e de mistura de especialistas (30B-A3B), respectivamente. Projetados a partir de primeiros princípios, eles rivalizam com VLMs de melhor desempenho exclusivos de compreensão em tarefas de compreensão textual, percepção visão-linguagem, raciocínio baseado em conhecimento, tomada de decisão agentiva e inteligência espacial. Simultaneamente, apresentam forte consistência semântica e fidelidade visual, destacando-se em síntese qualquer-para-imagem (X2I) convencional ou intensiva em conhecimento, geração de infográficos ricos em texto e geração intercalada de visão-linguagem, com ou sem padrões de pensamento. Além do desempenho, detalhamos o design do modelo, o pré-processamento de dados, as estratégias de pré-treinamento, pós-treinamento e inferência para apoiar a pesquisa da comunidade. Por último, mas não menos importante, evidências preliminares demonstram que nossos modelos vão além da percepção e geração, apresentando forte desempenho em cenários de visão-linguagem-ação (VLA) e de modelo de mundo (WM). Isso aponta para um roteiro mais amplo, no qual os modelos não traduzem entre modalidades, mas pensam e agem através delas de forma nativa. A IA multimodal não se trata mais de conectar sistemas separados, mas de construir um sistema unificado e confiar que as capacidades necessárias emergirão de dentro.
English
Recent large vision-language models (VLMs) remain fundamentally constrained by a persistent dichotomy: understanding and generation are treated as distinct problems, leading to fragmented architectures, cascaded pipelines, and misaligned representation spaces. We argue that this divide is not merely an engineering artifact, but a structural limitation that hinders the emergence of native multimodal intelligence. Hence, we introduce SenseNova-U1, a native unified multimodal paradigm built upon NEO-unify, in which understanding and generation evolve as synergistic views of a single underlying process. We launch two native unified variants, SenseNova-U1-8B-MoT and SenseNova-U1-A3B-MoT, built on dense (8B) and mixture-of-experts (30B-A3B) understanding baselines, respectively. Designed from first principles, they rival top-tier understanding-only VLMs across text understanding, vision-language perception, knowledge reasoning, agentic decision-making, and spatial intelligence. Meanwhile, they deliver strong semantic consistency and visual fidelity, excelling in conventional or knowledge-intensive any-to-image (X2I) synthesis, complex text-rich infographic generation, and interleaved vision-language generation, with or without think patterns. Beyond performance, we show detailed model design, data preprocessing, pre-/post-training, and inference strategies to support community research. Last but not least, preliminary evidence demonstrates that our models extend beyond perception and generation, performing strongly in vision-language-action (VLA) and world model (WM) scenarios. This points toward a broader roadmap where models do not translate between modalities, but think and act across them in a native manner. Multimodal AI is no longer about connecting separate systems, but about building a unified one and trusting the necessary capabilities to emerge from within.