Youtu-LLM: Desbloqueando o Potencial de Agência Nativa para Modelos de Linguagem de Grande Porte Leves

Resumo

Apresentamos o Youtu-LLM, um modelo de linguagem leve, porém poderoso, que harmoniza alta eficiência computacional com inteligência agentiva nativa. Diferente dos modelos pequenos típicos que dependem de destilação, o Youtu-LLM (1.96B) é pré-treinado do zero para cultivar sistematicamente capacidades de raciocínio e planejamento. Os principais avanços técnicos são os seguintes: (1) **Arquitetura Compacta com Suporte a Contexto Longo:** Construído sobre uma arquitetura densa de Atenção Multi-Latente (MLA) com um novo vocabulário orientado para STEM, o Youtu-LLM suporta uma janela de contexto de 128k tokens. Este projeto permite um raciocínio robusto de contexto longo e rastreamento de estado com uma pegada de memória mínima, tornando-o ideal para tarefas agentes e de raciocínio de longo horizonte. (2) **Currículo Fundamentado "Commonsense-STEM-Agent":** Curadamos um corpus massivo de aproximadamente 11 trilhões de tokens e implementamos uma estratégia de treinamento em múltiplos estágios. Ao mudar progressivamente a distribuição de dados de pré-treinamento do senso comum geral para tarefas complexas de STEM e agentivas, garantimos que o modelo adquira habilidades cognitivas profundas, em vez de um alinhamento superficial. (3) **Mid-training Agentivo Escalável:** Especificamente para o mid-training agentivo, empregamos esquemas diversos de construção de dados para sintetizar trajetórias ricas e variadas nos domínios de matemática, codificação e uso de ferramentas. Estes dados de alta qualidade permitem que o modelo internalize comportamentos de planejamento e reflexão de forma eficaz. Avaliações extensivas mostram que o Youtu-LLM estabelece um novo estado da arte para LLMs abaixo de 2B de parâmetros. Em benchmarks gerais, ele atinge um desempenho competitivo em comparação com modelos maiores, enquanto em tarefas específicas para agentes, supera significativamente as linhas de base SOTA existentes, demonstrando que modelos leves podem possuir fortes capacidades agentivas intrínsecas.

English

We introduce Youtu-LLM, a lightweight yet powerful language model that harmonizes high computational efficiency with native agentic intelligence. Unlike typical small models that rely on distillation, Youtu-LLM (1.96B) is pre-trained from scratch to systematically cultivate reasoning and planning capabilities. The key technical advancements are as follows: (1) Compact Architecture with Long-Context Support: Built on a dense Multi-Latent Attention (MLA) architecture with a novel STEM-oriented vocabulary, Youtu-LLM supports a 128k context window. This design enables robust long-context reasoning and state tracking within a minimal memory footprint, making it ideal for long-horizon agent and reasoning tasks. (2) Principled "Commonsense-STEM-Agent" Curriculum: We curated a massive corpus of approximately 11T tokens and implemented a multi-stage training strategy. By progressively shifting the pre-training data distribution from general commonsense to complex STEM and agentic tasks, we ensure the model acquires deep cognitive abilities rather than superficial alignment. (3) Scalable Agentic Mid-training: Specifically for the agentic mid-training, we employ diverse data construction schemes to synthesize rich and varied trajectories across math, coding, and tool-use domains. This high-quality data enables the model to internalize planning and reflection behaviors effectively. Extensive evaluations show that Youtu-LLM sets a new state-of-the-art for sub-2B LLMs. On general benchmarks, it achieves competitive performance against larger models, while on agent-specific tasks, it significantly surpasses existing SOTA baselines, demonstrating that lightweight models can possess strong intrinsic agentic capabilities.