Fisica dei Modelli Linguistici: Parte 4.1, Progettazione dell'Architettura e la Magia degli Strati Canonici

Abstract

Comprendere le differenze architetturali nei modelli linguistici è complesso, specialmente a scale di pre-addestramento accademiche (ad esempio, 1,3 miliardi di parametri, 100 miliardi di token), dove i risultati sono spesso dominati da rumore e casualità. Per superare questo limite, introduciamo task di pre-addestramento sintetici e controllati che isolano e valutano le capacità fondamentali del modello. All'interno di questo framework, scopriamo i CANON LAYERS: componenti architetturali leggeri – che prendono il nome dal termine musicale "canone" – che promuovono il flusso orizzontale di informazioni tra token adiacenti. I Canon Layers calcolano somme ponderate delle rappresentazioni dei token vicini e si integrano perfettamente nei Transformer, nell'attenzione lineare, nei modelli state-space o in qualsiasi architettura sequenziale. Presentiamo 12 risultati chiave. Tra questi, come i Canon Layers potenziano la profondità di ragionamento (ad esempio, di 2 volte), l'ampiezza di ragionamento, la manipolazione della conoscenza, ecc. Consentono ad architetture deboli come NoPE di eguagliare RoPE, e all'attenzione lineare di rivaleggiare con modelli lineari all'avanguardia come Mamba2/GDN – validato sia attraverso task sintetici che pre-addestramento reale su scala accademica. Questo playground sintetico offre un percorso economico e principiato per isolare le capacità fondamentali del modello spesso oscurate alle scale accademiche. Dotato di dati di alta qualità infiniti, potrebbe addirittura PREDIRE come si comporteranno le future architetture con il miglioramento delle pipeline di training – ad esempio, attraverso una migliore curatela dei dati o post-training basato su RL – sbloccando un ragionamento più profondo e inferenze gerarchiche.

English

Understanding architectural differences in language models is challenging, especially at academic-scale pretraining (e.g., 1.3B parameters, 100B tokens), where results are often dominated by noise and randomness. To overcome this, we introduce controlled synthetic pretraining tasks that isolate and evaluate core model capabilities. Within this framework, we discover CANON LAYERS: lightweight architectural components -- named after the musical term "canon" -- that promote horizontal information flow across neighboring tokens. Canon layers compute weighted sums of nearby token representations and integrate seamlessly into Transformers, linear attention, state-space models, or any sequence architecture. We present 12 key results. This includes how Canon layers enhance reasoning depth (e.g., by 2times), reasoning breadth, knowledge manipulation, etc. They lift weak architectures like NoPE to match RoPE, and linear attention to rival SOTA linear models like Mamba2/GDN -- validated both through synthetic tasks and real-world academic-scale pretraining. This synthetic playground offers an economical, principled path to isolate core model capabilities often obscured at academic scales. Equipped with infinite high-quality data, it may even PREDICT how future architectures will behave as training pipelines improve -- e.g., through better data curation or RL-based post-training -- unlocking deeper reasoning and hierarchical inference.

Fisica dei Modelli Linguistici: Parte 4.1, Progettazione dell'Architettura e la Magia degli Strati Canonici

Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers

Abstract

Support