ChatPaper.aiChatPaper

Transformers laten groeien: Modulaire compositie en laaggewijze uitbreiding op een bevroren substraat

Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

July 8, 2025
Auteurs: A. Bochkov
cs.AI

Samenvatting

Het heersende paradigma voor het schalen van grote taalmodellen (LLM's) omvat monolithische, end-to-end training, een resource-intensief proces dat weinig flexibiliteit biedt. Dit artikel onderzoekt een alternatieve, constructieve benadering voor modelontwikkeling, gebaseerd op niet-trainbare, deterministische invoer-embeddings. In eerder werk [1] hebben we aangetoond dat hoogwaardige semantische redenering kan ontstaan in Transformers met behulp van bevroren embeddings afgeleid van de visuele structuur van Unicode-glyphs. Hier demonstreren we dat dit vaste representatiesubstraat fungeert als een universele "aansluitpoort," waardoor twee krachtige en efficiënte schaalparadigma's mogelijk worden: naadloze modulaire compositie en progressieve laaggewijze groei. Ten eerste tonen we aan dat specialistische modellen die zijn getraind op verschillende datasets (bijvoorbeeld Russische en Chinese tekst) na de training kunnen worden samengevoegd tot één, krachtiger Mixture-of-Experts (MoE)-model, zonder architectonische aanpassingen. Dit wordt bereikt door simpelweg hun uitvoerlogits te middelen. Het resulterende MoE-model vertoont directe prestatieverbeteringen op redeneerbenchmarks zoals MMLU, waarbij het zijn samenstellende experts overtreft zonder catastrofale vergetelheid. Ten tweede introduceren we een laaggewijze constructieve trainingsmethodologie, waarbij een diepe Transformer wordt "gegroeid" door progressief één laag per keer te stapelen en te trainen. Deze methode toont stabiele convergentie en een duidelijke correlatie tussen modeldiepte en het ontstaan van complexe redeneervaardigheden, zoals vereist voor SQuAD. Onze bevindingen suggereren een paradigmaverschuiving van monolithische optimalisatie naar een meer biologische of constructieve benadering van AI-ontwikkeling, waarbij complexiteit incrementeel wordt opgebouwd en modules vrij kunnen worden samengesteld. Dit opent nieuwe mogelijkheden voor resource-efficiënt schalen, continu leren en een meer gedemocratiseerd ecosysteem voor het bouwen van krachtige AI-systemen. We maken alle code en modellen beschikbaar om verder onderzoek te faciliteren.
English
The prevailing paradigm for scaling large language models (LLMs) involves monolithic, end-to-end training, a resource-intensive process that lacks flexibility. This paper explores an alternative, constructive approach to model development, built upon the foundation of non-trainable, deterministic input embeddings. In prior [1], we established that high-level semantic reasoning can emerge in Transformers using frozen embeddings derived from the visual structure of Unicode glyphs. Here, we demonstrate that this fixed representational substrate acts as a universal "docking port," enabling two powerful and efficient scaling paradigms: seamless modular composition and progressive layer-wise growth. First, we show that specialist models trained on disparate datasets (e.g., Russian and Chinese text) can be merged into a single, more capable Mixture-of-Experts (MoE) model, post-training, with zero architectural modification. This is achieved by simply averaging their output logits. The resulting MoE model exhibits immediate performance improvements on reasoning benchmarks like MMLU, surpassing its constituent experts without catastrophic forgetting. Second, we introduce a layer-wise constructive training methodology, where a deep Transformer is "grown" by progressively stacking and training one layer at a time. This method demonstrates stable convergence and a clear correlation between model depth and the emergence of complex reasoning abilities, such as those required for SQuAD. Our findings suggest a paradigm shift from monolithic optimization towards a more biological or constructive model of AI development, where complexity is built incrementally and modules can be composed freely. This opens new avenues for resource-efficient scaling, continual learning, and a more democratized ecosystem for building powerful AI systems. We release all code and models to facilitate further research.
PDF32July 11, 2025