SenseNova-U1: NEO-unify 아키텍처를 통한 멀티모달 이해 및 생성 통합
SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture
May 12, 2026
저자: Haiwen Diao, Penghao Wu, Hanming Deng, Jiahao Wang, Shihao Bai, Silei Wu, Weichen Fan, Wenjie Ye, Wenwen Tong, Xiangyu Fan, Yan Li, Yubo Wang, Zhijie Cao, Zhiqian Lin, Zhitao Yang, Zhongang Cai, Yuwei Niu, Yue Zhu, Bo Liu, Chengguang Lv, Haojia Yu, Haozhe Xie, Hongli Wang, Jianan Fan, Jiaqi Li, Jiefan Lu, Jingcheng Ni, Junxiang Xu, Kaihuan Liang, Lianqiang Shi, Linjun Dai, Linyan Wang, Oscar Qian, Peng Gao, Pengfei Liu, Qingping Sun, Rui Shen, Ruisi Wang, Shengnan Ma, Shuang Yang, Siyi Xie, Siying Li, Tianbo Zhong, Xiangli Kong, Xuanke Shi, Yang Gao, Yongqiang Yao, Yves Wang, Zhengqi Bai, Zhengyu Lin, Zixin Yin, Wenxiu Sun, Ruihao Gong, Quan Wang, Lewei Lu, Lei Yang, Ziwei Liu, Dahua Lin
cs.AI
초록
최근 대규모 시각-언어 모델(VLM)은 여전히 근본적인 이분법에 의해 제약을 받고 있습니다. 즉, 이해와 생성이 별개의 문제로 취급되어 파편화된 아키텍처, 계단식 파이프라인, 정렬되지 않은 표현 공간을 초래합니다. 우리는 이러한 분열이 단순한 엔지니어링적 산물이 아니라, 본질적인 다중 모달 지능의 출현을 저해하는 구조적 한계라고 주장합니다. 이에 우리는 NEO-unify를 기반으로 구축된 SenseNova-U1을 소개합니다. 이는 이해와 생성이 단일 기저 과정의 상승적 관점으로 진화하는, 본질적으로 통합된 다중 모달 패러다임입니다. 우리는 각각 dense(8B) 및 mixture-of-experts(30B-A3B) 이해 기준선 위에 구축된 두 가지 본질적 통합 변종, SenseNova-U1-8B-MoT와 SenseNova-U1-A3B-MoT를 출시합니다. 첫 번째 원칙부터 설계된 이 모델들은 텍스트 이해, 시각-언어 인식, 지식 추론, 에이전트 의사 결정, 공간 지능에 걸쳐 최고 수준의 이해 전용 VLM과 견줍니다. 동시에, 이들은 강력한 의미적 일관성과 시각적 충실도를 제공하며, 기존 또는 지식 집약적 any-to-image(X2I) 합성, 복잡한 텍스트 리치 인포그래픽 생성, 사고 패턴 유무에 관계없이 인터리브된 시각-언어 생성에서 탁월한 성능을 보입니다. 성능 외에도, 우리는 커뮤니티 연구를 지원하기 위해 상세한 모델 설계, 데이터 전처리, 사전/사후 훈련 및 추론 전략을 제시합니다. 마지막으로, 예비 증거는 우리 모델이 인식과 생성 범위를 넘어 시각-언어-행동(VLA) 및 세계 모델(WM) 시나리오에서도 강력하게 작동함을 보여줍니다. 이는 모델이 양식 간 번역을 수행하는 것이 아니라, 본질적인 방식으로 양식 전반에 걸쳐 생각하고 행동하는 더 넓은 로드맵을 가리킵니다. 다중 모달 AI는 더 이상 개별 시스템을 연결하는 것이 아니라, 통합된 시스템을 구축하고 필요한 능력이 내부에서 출현하도록 신뢰하는 것입니다.
English
Recent large vision-language models (VLMs) remain fundamentally constrained by a persistent dichotomy: understanding and generation are treated as distinct problems, leading to fragmented architectures, cascaded pipelines, and misaligned representation spaces. We argue that this divide is not merely an engineering artifact, but a structural limitation that hinders the emergence of native multimodal intelligence. Hence, we introduce SenseNova-U1, a native unified multimodal paradigm built upon NEO-unify, in which understanding and generation evolve as synergistic views of a single underlying process. We launch two native unified variants, SenseNova-U1-8B-MoT and SenseNova-U1-A3B-MoT, built on dense (8B) and mixture-of-experts (30B-A3B) understanding baselines, respectively. Designed from first principles, they rival top-tier understanding-only VLMs across text understanding, vision-language perception, knowledge reasoning, agentic decision-making, and spatial intelligence. Meanwhile, they deliver strong semantic consistency and visual fidelity, excelling in conventional or knowledge-intensive any-to-image (X2I) synthesis, complex text-rich infographic generation, and interleaved vision-language generation, with or without think patterns. Beyond performance, we show detailed model design, data preprocessing, pre-/post-training, and inference strategies to support community research. Last but not least, preliminary evidence demonstrates that our models extend beyond perception and generation, performing strongly in vision-language-action (VLA) and world model (WM) scenarios. This points toward a broader roadmap where models do not translate between modalities, but think and act across them in a native manner. Multimodal AI is no longer about connecting separate systems, but about building a unified one and trusting the necessary capabilities to emerge from within.