Transformers laten groeien: Modulaire compositie en laaggewijze uitbreiding op een bevroren substraat
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate
July 8, 2025
Auteurs: A. Bochkov
cs.AI
Samenvatting
Het heersende paradigma voor het schalen van grote taalmodellen (LLM's) omvat monolithische, end-to-end training, een resource-intensief proces dat weinig flexibiliteit biedt. Dit artikel onderzoekt een alternatieve, constructieve benadering voor modelontwikkeling, gebaseerd op niet-trainbare, deterministische invoer-embeddings. In eerder werk [1] hebben we aangetoond dat hoogwaardige semantische redenering kan ontstaan in Transformers met behulp van bevroren embeddings afgeleid van de visuele structuur van Unicode-glyphs. Hier demonstreren we dat dit vaste representatiesubstraat fungeert als een universele "aansluitpoort," waardoor twee krachtige en efficiënte schaalparadigma's mogelijk worden: naadloze modulaire compositie en progressieve laaggewijze groei.
Ten eerste tonen we aan dat specialistische modellen die zijn getraind op verschillende datasets (bijvoorbeeld Russische en Chinese tekst) na de training kunnen worden samengevoegd tot één, krachtiger Mixture-of-Experts (MoE)-model, zonder architectonische aanpassingen. Dit wordt bereikt door simpelweg hun uitvoerlogits te middelen. Het resulterende MoE-model vertoont directe prestatieverbeteringen op redeneerbenchmarks zoals MMLU, waarbij het zijn samenstellende experts overtreft zonder catastrofale vergetelheid. Ten tweede introduceren we een laaggewijze constructieve trainingsmethodologie, waarbij een diepe Transformer wordt "gegroeid" door progressief één laag per keer te stapelen en te trainen. Deze methode toont stabiele convergentie en een duidelijke correlatie tussen modeldiepte en het ontstaan van complexe redeneervaardigheden, zoals vereist voor SQuAD.
Onze bevindingen suggereren een paradigmaverschuiving van monolithische optimalisatie naar een meer biologische of constructieve benadering van AI-ontwikkeling, waarbij complexiteit incrementeel wordt opgebouwd en modules vrij kunnen worden samengesteld. Dit opent nieuwe mogelijkheden voor resource-efficiënt schalen, continu leren en een meer gedemocratiseerd ecosysteem voor het bouwen van krachtige AI-systemen. We maken alle code en modellen beschikbaar om verder onderzoek te faciliteren.
English
The prevailing paradigm for scaling large language models (LLMs) involves
monolithic, end-to-end training, a resource-intensive process that lacks
flexibility. This paper explores an alternative, constructive approach to model
development, built upon the foundation of non-trainable, deterministic input
embeddings. In prior [1], we established that high-level semantic reasoning can
emerge in Transformers using frozen embeddings derived from the visual
structure of Unicode glyphs. Here, we demonstrate that this fixed
representational substrate acts as a universal "docking port," enabling two
powerful and efficient scaling paradigms: seamless modular composition and
progressive layer-wise growth.
First, we show that specialist models trained on disparate datasets (e.g.,
Russian and Chinese text) can be merged into a single, more capable
Mixture-of-Experts (MoE) model, post-training, with zero architectural
modification. This is achieved by simply averaging their output logits. The
resulting MoE model exhibits immediate performance improvements on reasoning
benchmarks like MMLU, surpassing its constituent experts without catastrophic
forgetting. Second, we introduce a layer-wise constructive training
methodology, where a deep Transformer is "grown" by progressively stacking and
training one layer at a time. This method demonstrates stable convergence and a
clear correlation between model depth and the emergence of complex reasoning
abilities, such as those required for SQuAD.
Our findings suggest a paradigm shift from monolithic optimization towards a
more biological or constructive model of AI development, where complexity is
built incrementally and modules can be composed freely. This opens new avenues
for resource-efficient scaling, continual learning, and a more democratized
ecosystem for building powerful AI systems. We release all code and models to
facilitate further research.