Youtu-LLM: Sbloccare il potenziale agentico nativo per i modelli linguistici di grandi dimensioni leggeri

Abstract

Introduciamo Youtu-LLM, un modello linguistico leggero ma potente che armonizza un'elevata efficienza computazionale con un'intelligenza agenziale nativa. A differenza dei tipici modelli di piccole dimensioni che si basano sulla distillazione, Youtu-LLM (1.96B) è pre-addestrato da zero per coltivare sistematicamente capacità di ragionamento e pianificazione. I progressi tecnici chiave sono i seguenti: (1) Architettura Compatta con Supporto a Contesti Lunghi: Basata su un'architettura densa Multi-Latent Attention (MLA) con un nuovo vocabolario orientato alle STEM, Youtu-LLM supporta una finestra di contesto di 128k token. Questo design consente un solido ragionamento su contesti lunghi e il tracciamento degli stati con un'impronta di memoria minima, rendendolo ideale per compiti agenziali e di ragionamento a lungo termine. (2) Curriculum Principe "Commonsense-STEM-Agent": Abbiamo curato un corpus massiccio di circa 11T di token e implementato una strategia di addestramento multi-stadio. Spostando progressivamente la distribuzione dei dati di pre-addestramento dal senso comune generale a compiti STEM complessi e agenziali, ci assicuriamo che il modello acquisisca abilità cognitive profonde piuttosto che un allineamento superficiale. (3) Mid-training Agenziale Scalabile: Specificamente per il mid-training agenziale, impieghiamo diversi schemi di costruzione dei dati per sintetizzare traiettorie ricche e variegate negli ambiti della matematica, della programmazione e dell'uso di strumenti. Questi dati di alta qualità permettono al modello di interiorizzare efficacemente comportamenti di pianificazione e riflessione. Valutazioni estensive mostrano che Youtu-LLM stabilisce un nuovo stato dell'arte per LLM sotto i 2B parametri. Su benchmark generali, raggiunge prestazioni competitive rispetto a modelli più grandi, mentre su compiti specificamente agenziali supera significativamente i baseline SOTA esistenti, dimostrando che modelli leggeri possono possedere forti capacità agenziali intrinseche.

English

We introduce Youtu-LLM, a lightweight yet powerful language model that harmonizes high computational efficiency with native agentic intelligence. Unlike typical small models that rely on distillation, Youtu-LLM (1.96B) is pre-trained from scratch to systematically cultivate reasoning and planning capabilities. The key technical advancements are as follows: (1) Compact Architecture with Long-Context Support: Built on a dense Multi-Latent Attention (MLA) architecture with a novel STEM-oriented vocabulary, Youtu-LLM supports a 128k context window. This design enables robust long-context reasoning and state tracking within a minimal memory footprint, making it ideal for long-horizon agent and reasoning tasks. (2) Principled "Commonsense-STEM-Agent" Curriculum: We curated a massive corpus of approximately 11T tokens and implemented a multi-stage training strategy. By progressively shifting the pre-training data distribution from general commonsense to complex STEM and agentic tasks, we ensure the model acquires deep cognitive abilities rather than superficial alignment. (3) Scalable Agentic Mid-training: Specifically for the agentic mid-training, we employ diverse data construction schemes to synthesize rich and varied trajectories across math, coding, and tool-use domains. This high-quality data enables the model to internalize planning and reflection behaviors effectively. Extensive evaluations show that Youtu-LLM sets a new state-of-the-art for sub-2B LLMs. On general benchmarks, it achieves competitive performance against larger models, while on agent-specific tasks, it significantly surpasses existing SOTA baselines, demonstrating that lightweight models can possess strong intrinsic agentic capabilities.