ChatPaper.aiChatPaper

Youtu-LLM: Desbloqueando el Potencial Agéntico Nativo para Modelos de Lenguaje Grandes Livianos

Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

December 31, 2025
Autores: Junru Lu, Jiarui Qin, Lingfeng Qiao, Yinghui Li, Xinyi Dai, Bo Ke, Jianfeng He, Ruizhi Qiao, Di Yin, Xing Sun, Yunsheng Wu, Yinsong Liu, Shuangyin Liu, Mingkong Tang, Haodong Lin, Jiayi Kuang, Fanxu Meng, Xiaojuan Tang, Yunjia Xi, Junjie Huang, Haotong Yang, Zhenyi Shen, Yangning Li, Qianwen Zhang, Yifei Yu, Siyu An, Junnan Dong, Qiufeng Wang, Jie Wang, Keyu Chen, Wei Wen, Taian Guo, Zhifeng Shen, Daohai Yu, Jiahao Li, Ke Li, Zongyi Li, Xiaoyu Tan
cs.AI

Resumen

Presentamos Youtu-LLM, un modelo de lenguaje liviano pero potente que armoniza una alta eficiencia computacional con una inteligencia agéntica nativa. A diferencia de los modelos pequeños típicos que dependen de la destilación, Youtu-LLM (1.96B) es pre-entrenado desde cero para cultivar sistemáticamente capacidades de razonamiento y planificación. Los avances técnicos clave son los siguientes: (1) Arquitectura Compacta con Soporte de Contexto Largo: Construido sobre una densa arquitectura de Atención Multi-Latente (MLA) con un nuevo vocabulario orientado a STEM, Youtu-LLM soporta una ventana de contexto de 128k tokens. Este diseño permite un razonamiento robusto de contexto largo y un seguimiento de estados con una huella de memoria mínima, haciéndolo ideal para tareas agénticas y de razonamiento de horizonte largo. (2) Plan de Estudios "Sentido Común-STEM-Agente" con Fundamentos: Curramos un corpus masivo de aproximadamente 11T de tokens e implementamos una estrategia de entrenamiento multietapa. Al cambiar progresivamente la distribución de datos de pre-entrenamiento desde el sentido común general hacia tareas complejas de STEM y agénticas, aseguramos que el modelo adquiera habilidades cognitivas profundas en lugar de una alineación superficial. (3) Entrenamiento Intermedio Agéntico Escalable: Específicamente para el entrenamiento intermedio agéntico, empleamos diversos esquemas de construcción de datos para sintetizar trayectorias ricas y variadas en los dominios de matemáticas, codificación y uso de herramientas. Estos datos de alta calidad permiten al modelo internalizar efectivamente comportamientos de planificación y reflexión. Evaluaciones exhaustivas muestran que Youtu-LLM establece un nuevo estado del arte para LLMs por debajo de los 2B de parámetros. En benchmarks generales, logra un rendimiento competitivo frente a modelos más grandes, mientras que en tareas específicas de agentes, supera significativamente las líneas de base SOTA existentes, demostrando que los modelos livianos pueden poseer fuertes capacidades agénticas intrínsecas.
English
We introduce Youtu-LLM, a lightweight yet powerful language model that harmonizes high computational efficiency with native agentic intelligence. Unlike typical small models that rely on distillation, Youtu-LLM (1.96B) is pre-trained from scratch to systematically cultivate reasoning and planning capabilities. The key technical advancements are as follows: (1) Compact Architecture with Long-Context Support: Built on a dense Multi-Latent Attention (MLA) architecture with a novel STEM-oriented vocabulary, Youtu-LLM supports a 128k context window. This design enables robust long-context reasoning and state tracking within a minimal memory footprint, making it ideal for long-horizon agent and reasoning tasks. (2) Principled "Commonsense-STEM-Agent" Curriculum: We curated a massive corpus of approximately 11T tokens and implemented a multi-stage training strategy. By progressively shifting the pre-training data distribution from general commonsense to complex STEM and agentic tasks, we ensure the model acquires deep cognitive abilities rather than superficial alignment. (3) Scalable Agentic Mid-training: Specifically for the agentic mid-training, we employ diverse data construction schemes to synthesize rich and varied trajectories across math, coding, and tool-use domains. This high-quality data enables the model to internalize planning and reflection behaviors effectively. Extensive evaluations show that Youtu-LLM sets a new state-of-the-art for sub-2B LLMs. On general benchmarks, it achieves competitive performance against larger models, while on agent-specific tasks, it significantly surpasses existing SOTA baselines, demonstrating that lightweight models can possess strong intrinsic agentic capabilities.
PDF431January 2, 2026