Youtu-LLM:軽量大規模言語モデルのネイティブなエージェント能力の解放
Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models
December 31, 2025
著者: Junru Lu, Jiarui Qin, Lingfeng Qiao, Yinghui Li, Xinyi Dai, Bo Ke, Jianfeng He, Ruizhi Qiao, Di Yin, Xing Sun, Yunsheng Wu, Yinsong Liu, Shuangyin Liu, Mingkong Tang, Haodong Lin, Jiayi Kuang, Fanxu Meng, Xiaojuan Tang, Yunjia Xi, Junjie Huang, Haotong Yang, Zhenyi Shen, Yangning Li, Qianwen Zhang, Yifei Yu, Siyu An, Junnan Dong, Qiufeng Wang, Jie Wang, Keyu Chen, Wei Wen, Taian Guo, Zhifeng Shen, Daohai Yu, Jiahao Li, Ke Li, Zongyi Li, Xiaoyu Tan
cs.AI
要旨
我々はYoutu-LLMを紹介する。これは軽量でありながら強力な言語モデルであり、高い計算効率と本質的なエージェント知能を調和させている。蒸留に依存する典型的な小型モデルとは異なり、Youtu-LLM(1.96B)は推論能力と計画能力を体系的に育成するためスクラッチから事前学習されている。主な技術的進歩は以下の通りである:
(1)長文脈対応のコンパクトアーキテクチャ:高密度のMulti-Latent Attention(MLA)アーキテクチャと新規のSTEM指向語彙を基盤とし、128kトークンの文脈ウィンドウをサポートする。この設計により、最小限のメモリ使用量で堅牢な長文脈推論と状態追跡が可能となり、長期的なエージェントタスクや推論タスクに理想的である。
(2)体系的な「常識-STEM-エージェント」カリキュラム:約11Tトークンに及ぶ大規模コーパスを精選し、多段階学習戦略を採用。事前学習データの分布を一般常識から複雑なSTEM課題、さらにエージェントタスクへと段階的に移行させることで、表面的な適合ではなく深い認知能力の獲得を保証する。
(3)スケーラブルなエージェント中間学習:エージェント中間学習では、数学・コーディング・ツール利用領域において多様な軌道を合成するため、複数のデータ構築手法を採用。この高品質データにより、モデルが計画立案と内省の行動様式を効果的に内在化できる。
大規模評価により、Youtu-LLMが2B未満のLLMにおいて新たなstate-of-the-artを確立することが示された。一般ベンチマークでは大規模モデルに匹敵する性能を発揮し、エージェント特化タスクでは既存のSOTAベースラインを大幅に上回り、軽量モデルが強力な本質的エージェント能力を有し得ることを実証している。
English
We introduce Youtu-LLM, a lightweight yet powerful language model that harmonizes high computational efficiency with native agentic intelligence. Unlike typical small models that rely on distillation, Youtu-LLM (1.96B) is pre-trained from scratch to systematically cultivate reasoning and planning capabilities. The key technical advancements are as follows: (1) Compact Architecture with Long-Context Support: Built on a dense Multi-Latent Attention (MLA) architecture with a novel STEM-oriented vocabulary, Youtu-LLM supports a 128k context window. This design enables robust long-context reasoning and state tracking within a minimal memory footprint, making it ideal for long-horizon agent and reasoning tasks. (2) Principled "Commonsense-STEM-Agent" Curriculum: We curated a massive corpus of approximately 11T tokens and implemented a multi-stage training strategy. By progressively shifting the pre-training data distribution from general commonsense to complex STEM and agentic tasks, we ensure the model acquires deep cognitive abilities rather than superficial alignment. (3) Scalable Agentic Mid-training: Specifically for the agentic mid-training, we employ diverse data construction schemes to synthesize rich and varied trajectories across math, coding, and tool-use domains. This high-quality data enables the model to internalize planning and reflection behaviors effectively. Extensive evaluations show that Youtu-LLM sets a new state-of-the-art for sub-2B LLMs. On general benchmarks, it achieves competitive performance against larger models, while on agent-specific tasks, it significantly surpasses existing SOTA baselines, demonstrating that lightweight models can possess strong intrinsic agentic capabilities.