Youtu-LLM: Het ontsluiten van het native agentische potentieel voor lichtgewicht grote taalmodellen
Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models
December 31, 2025
Auteurs: Junru Lu, Jiarui Qin, Lingfeng Qiao, Yinghui Li, Xinyi Dai, Bo Ke, Jianfeng He, Ruizhi Qiao, Di Yin, Xing Sun, Yunsheng Wu, Yinsong Liu, Shuangyin Liu, Mingkong Tang, Haodong Lin, Jiayi Kuang, Fanxu Meng, Xiaojuan Tang, Yunjia Xi, Junjie Huang, Haotong Yang, Zhenyi Shen, Yangning Li, Qianwen Zhang, Yifei Yu, Siyu An, Junnan Dong, Qiufeng Wang, Jie Wang, Keyu Chen, Wei Wen, Taian Guo, Zhifeng Shen, Daohai Yu, Jiahao Li, Ke Li, Zongyi Li, Xiaoyu Tan
cs.AI
Samenvatting
Wij introduceren Youtu-LLM, een lichtgewicht maar krachtig taalmodel dat hoge computationele efficiëntie harmonieus combineert met native agent-intelligentie. In tegenstelling tot typische kleine modellen die op distillatie vertrouwen, is Youtu-LLM (1,96B) vanaf nul voorgetraind om redeneer- en planningscapaciteiten systematisch te ontwikkelen. De belangrijkste technologische vooruitgangen zijn als volgt: (1) Compacte architectuur met lange-contextondersteuning: Gebouwd op een dense Multi-Latent Attention (MLA)-architectuur met een nieuw STEM-gericht vocabulaire, ondersteunt Youtu-LLM een contextvenster van 128k. Dit ontwerp maakt robuust redeneren over lange contexten en staatstracking mogelijk met een minimale geheugenvoetafdruk, wat het ideaal maakt voor langetermijn-agent- en redeneertaken. (2) Principieel "Common Sense-STEM-Agent"-curriculum: Wij hebben een enorme corpus van ongeveer 11T tokens samengesteld en een meerfasen-trainingsstrategie geïmplementeerd. Door de verdeling van de voor-trainingsdata geleidelijk te verschuiven van algemene common sense naar complexe STEM- en agenttaken, zorgen we ervoor dat het model diepe cognitieve vaardigheden verwerft in plaats van oppervlakkige afstemming. (3) Schaalbare agent-mid-training: Specifiek voor de agent-mid-training gebruiken we diverse dataconstructieschema's om rijke en gevarieerde trajecten te synthetiseren binnen wiskunde, programmeren en toolgebruik. Deze hoogkwalitatieve data stelt het model in staat plannings- en reflectiegedrag effectief te internaliseren. Uitgebreide evaluaties tonen aan dat Youtu-LLM een nieuwe state-of-the-art vestigt voor sub-2B LLM's. Op algemene benchmarks behaalt het competitieve prestaties ten opzichte van grotere modellen, terwijl het op agentspecifieke taken bestaande SOTA-baselines significant overtreft. Dit demonstreert dat lichtgewicht modellen sterke intrinsieke agent-capaciteiten kunnen bezitten.
English
We introduce Youtu-LLM, a lightweight yet powerful language model that harmonizes high computational efficiency with native agentic intelligence. Unlike typical small models that rely on distillation, Youtu-LLM (1.96B) is pre-trained from scratch to systematically cultivate reasoning and planning capabilities. The key technical advancements are as follows: (1) Compact Architecture with Long-Context Support: Built on a dense Multi-Latent Attention (MLA) architecture with a novel STEM-oriented vocabulary, Youtu-LLM supports a 128k context window. This design enables robust long-context reasoning and state tracking within a minimal memory footprint, making it ideal for long-horizon agent and reasoning tasks. (2) Principled "Commonsense-STEM-Agent" Curriculum: We curated a massive corpus of approximately 11T tokens and implemented a multi-stage training strategy. By progressively shifting the pre-training data distribution from general commonsense to complex STEM and agentic tasks, we ensure the model acquires deep cognitive abilities rather than superficial alignment. (3) Scalable Agentic Mid-training: Specifically for the agentic mid-training, we employ diverse data construction schemes to synthesize rich and varied trajectories across math, coding, and tool-use domains. This high-quality data enables the model to internalize planning and reflection behaviors effectively. Extensive evaluations show that Youtu-LLM sets a new state-of-the-art for sub-2B LLMs. On general benchmarks, it achieves competitive performance against larger models, while on agent-specific tasks, it significantly surpasses existing SOTA baselines, demonstrating that lightweight models can possess strong intrinsic agentic capabilities.