Youtu-LLM: 경량 대규모 언어 모델의 내재적 에이전트 능력 개방
Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models
December 31, 2025
저자: Junru Lu, Jiarui Qin, Lingfeng Qiao, Yinghui Li, Xinyi Dai, Bo Ke, Jianfeng He, Ruizhi Qiao, Di Yin, Xing Sun, Yunsheng Wu, Yinsong Liu, Shuangyin Liu, Mingkong Tang, Haodong Lin, Jiayi Kuang, Fanxu Meng, Xiaojuan Tang, Yunjia Xi, Junjie Huang, Haotong Yang, Zhenyi Shen, Yangning Li, Qianwen Zhang, Yifei Yu, Siyu An, Junnan Dong, Qiufeng Wang, Jie Wang, Keyu Chen, Wei Wen, Taian Guo, Zhifeng Shen, Daohai Yu, Jiahao Li, Ke Li, Zongyi Li, Xiaoyu Tan
cs.AI
초록
저희는 높은 계산 효율성과 본질적인 에이전트 능력을 조화시킨 경량이면서도 강력한 언어 모델인 Youtu-LLM을 소개합니다. 지식 증류에 의존하는 일반적인 소형 모델과 달리, Youtu-LLM(1.96B)은 추론 및 계획 능력을 체계적으로 함양하기 위해 처음부터 사전 학습되었습니다. 주요 기술적 발전은 다음과 같습니다. (1) 장문맥 지원을 위한 컴팩트 아키텍처: 새로운 STEM 중심 어휘 사전을 갖춘 조밀한 MLA 아키텍처를 기반으로 구축된 Youtu-LLM은 128k 컨텍스트 창을 지원합니다. 이 설계는 최소 메모리 사용량으로 강력한 장문맥 추론 및 상태 추적을 가능하게 하여 장기간의 에이전트 및 추론 작업에 이상적입니다. (2) 체계적인 "상식-STEM-에이전트" 커리큘럼: 약 11T 토큰에 달하는 방대한 코퍼스를 구성하고 다단계 학습 전략을 구현했습니다. 사전 학습 데이터 분포를 일반 상식에서 복잡한 STEM 및 에이전트 작업으로 점진적으로 전환함으로써, 모델이 피상적인 정렬이 아닌 깊은 인지 능력을 습득하도록 보장합니다. (3) 확장 가능한 에이전트 중간 학습: 특히 에이전트 중간 학습을 위해, 수학, 코딩, 도구 사용 분야에 걸쳐 풍부하고 다양한 행동 궤적을 합성하기 위해 다양한 데이터 구성 방식을 사용합니다. 이러한 고품질 데이터는 모델이 계획 및 성찰 행동을 효과적으로 내면화할 수 있게 합니다. 광범위한 평가 결과, Youtu-LLM은 20억 파라미터 미만 LLM 중 새로운 최첨단 성능을 보여줍니다. 일반 벤치마크에서는 대형 모델에 필적하는 성능을 달성하는 한편, 에이전트 특화 작업에서는 기존 SOTA 기준선을 크게 능가하여 경량 모델도 강력한 내재적 에이전트 능력을 가질 수 있음을 입증합니다.
English
We introduce Youtu-LLM, a lightweight yet powerful language model that harmonizes high computational efficiency with native agentic intelligence. Unlike typical small models that rely on distillation, Youtu-LLM (1.96B) is pre-trained from scratch to systematically cultivate reasoning and planning capabilities. The key technical advancements are as follows: (1) Compact Architecture with Long-Context Support: Built on a dense Multi-Latent Attention (MLA) architecture with a novel STEM-oriented vocabulary, Youtu-LLM supports a 128k context window. This design enables robust long-context reasoning and state tracking within a minimal memory footprint, making it ideal for long-horizon agent and reasoning tasks. (2) Principled "Commonsense-STEM-Agent" Curriculum: We curated a massive corpus of approximately 11T tokens and implemented a multi-stage training strategy. By progressively shifting the pre-training data distribution from general commonsense to complex STEM and agentic tasks, we ensure the model acquires deep cognitive abilities rather than superficial alignment. (3) Scalable Agentic Mid-training: Specifically for the agentic mid-training, we employ diverse data construction schemes to synthesize rich and varied trajectories across math, coding, and tool-use domains. This high-quality data enables the model to internalize planning and reflection behaviors effectively. Extensive evaluations show that Youtu-LLM sets a new state-of-the-art for sub-2B LLMs. On general benchmarks, it achieves competitive performance against larger models, while on agent-specific tasks, it significantly surpasses existing SOTA baselines, demonstrating that lightweight models can possess strong intrinsic agentic capabilities.