모든 활성화 강화: 1조 개의 오픈 언어 기반을 갖춘 범용 추론기 확장
Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation
October 25, 2025
저자: Ling-Team, Ang Li, Ben Liu, Binbin Hu, Bing Li, Bingwei Zeng, Borui Ye, Caizhi Tang, Changxin Tian, Chao Huang, Chao Zhang, Chen Qian, Chenchen Ju, Chenchen Li, Chengfu Tang, Chili Fu, Chunshao Ren, Chunwei Wu, Cong Zhang, Cunyin Peng, Dafeng Xu, Daixin Wang, Dalong Zhang, Dingnan Jin, Dingyuan Zhu, Dongke Hu, Fangzheng Zhao, Feifan Wu, Feng Zhu, Gangshan Wang, Haitao Zhang, Hailin Zhao, Hanxiao Zhang, Hanzi Wang, Hao Qian, Haoyi Yu, Heng Zhang, Hongliang Zhang, Hongzhi Luan, Huirong Dong, Huizhong Li, Jia Li, Jia Liu, Jialong Zhu, Jian Sha, Jianping Wei, Jiaolong Yang, Jieyue Ma, Jiewei Wu, Jinjing Huang, Jingyun Tian, Jingyuan Zhang, Jinquan Sun, Juanhui Tu, Jun Liu, Jun Xu, Jun Zhou, Junjie Ou, Junpeng Fang, Kaihong Zhang, Kaiqin Hu, Ke Shi, Kun Tang, Kunlong Chen, Lanyin Mei, Lei Liang, Lei Xu, Libo Zhang, Lin Ju, Lin Yuan, Ling Zhong, Lintao Ma, Lu Liu, Lu Yu, Lun Cai, Meiqi Zhu, Mengying Li, Min Chen, Minghao Xue, Minghong Cai, Mingming Yin, Peijie Jiang, Peilong Zhao, Pingping Liu, Qian Zhao, Qing Cui, Qingxiang Huang, Qingyuan Yang, Quankun Yu, Shaowei Wei, Shijie Lian, Shoujian Zheng, Shun Song, Shungen Zhang, Shuo Zhang, Siyuan Li, Song Liu, Ting Guo, Tong Zhao, Wanli Gu, Weichang Wu, Weiguang Han, Wenjing Fang, Wubin Wang, Xiang Shu, Xiao Shi, Xiaoshun Lan, Xiaolu Zhang, Xiaqing Sun, Xin Zhao, Xingyu Lu, Xiong Xu, Xudong Wang, Xudong Wang, Xuemin Yang, Yajie Yang, Yang Xiang, Yanzhe Li, Yi Zhang, Yilong Wang, Yingxue Li, Yongzhen Guo, Yuzhuo Fu, Yuanyuan Wang, Yue Yang, Yue Yu, Yufeng Deng, Yun Zhang, Yunfei Xu, Yuqi Zhang, Yuxiao He, Zengke Gui, Zhaoxin Huan, Zhaoyang Wang, Zhibo Zhu, Zhihao Wang, Zhiqiang Zhang, Zhoufei Wang, Zihang Zeng, Ziqi Liu, Zitao Xuan, Zuoli Tang
cs.AI
초록
우리는 모든 활성화가 추론 능력을 향상시킨다는 원칙에 기반하여 구축된 시리즈 추론 지향 언어 기반인 Ling 2.0을 소개한다. 통합 MoE(Mixture-of-Experts) 패러다임 아래에서 수백억 개에서 1조 개의 매개변수로 확장되도록 설계된 Ling 2.0은 실증적 확장 법칙에 기반한 높은 희소성, 크로스-스케일 일관성 및 효율성을 강조한다. 이 시리즈는 160억 개에서 1조 개의 총 매개변수를 가지며 조밀한(dense) 대조 모델 대비 최대 7배의 활성 연산 효율성을 달성하는 3개의 논-씽킹(non-thinking) 인스트럭트(instruct) 모델(Ling-mini-2.0, Ling-flash-2.0, Ling-1T)을 포함한다. Ling 2.0은 모델 아키텍처, 사전 학습, 사후 학습 및 인프라 전반에 걸친 협조적인 혁신을 통합한다: 효율적인 추론을 위한 MTP를 적용한 고희소성 MoE, 추론 지향 데이터 및 미드-트레이닝(mid-training) CoT 활성화, 강화 학습 기반 미세 조정(DFT, Evo-CoT), 세분화된 이기종 파이프라인을 통한 전구간 FP8 학습이 그것이다. 1조 규모에서 Ling-1T는 추론 정확도 대 computational 효율성의 새로운 파레토 프론티어를 수립하며, 희소 활성화가 추론 목표와 적절히 결합될 때 확장 가능하고 효율적인 지능을 가능하게 함을 입증한다. 종합적으로, Ling 2.0은 동일한 기반 위에 구축된 Ring 시리즈를 포함한 미래 추론 및 사고 모델 발전을 위한 일관되고 개방적이며 효율적인 기반을 제공한다.
English
We introduce Ling 2.0, a series reasoning-oriented language foundation built
upon the principle that every activation boosts reasoning capability. Designed
to scale from tens of billions to one trillion parameters under a unified
Mixture-of-Experts (MoE) paradigm, Ling 2.0 emphasizes high sparsity,
cross-scale consistency, and efficiency guided by empirical scaling laws. The
series includes three non-thinking (instruct) models - Ling-mini-2.0,
Ling-flash-2.0, and Ling-1T - ranging from 16B to 1T total parameters and
achieving up to 7-fold active-compute efficiency compared with dense
counterparts. Ling 2.0 integrates coordinated innovations across model
architecture, pre-training, post-training, and infrastructure: a high-sparsity
MoE with MTP for efficient reasoning, reasoning-oriented data and mid-training
CoT activation, reinforcement-based fine-tuning (DFT, Evo-CoT), and full-scale
FP8 training with fine-grained heterogeneous pipelines. At the trillion scale,
Ling-1T establishes a new Pareto frontier of reasoning accuracy versus
computational efficiency, demonstrating that sparse activation, when properly
aligned with reasoning objectives, enables scalable and efficient intelligence.
Collectively, Ling 2.0 provides a coherent, open, and efficient foundation for
advancing future reasoning and thinking models, including the Ring series built
upon the same base.