Crescita dei Transformer: Composizione Modulare ed Espansione Strato per Strato su un Substrato Congelato
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate
July 8, 2025
Autori: A. Bochkov
cs.AI
Abstract
Il paradigma prevalente per il ridimensionamento dei grandi modelli linguistici (LLM) prevede un addestramento monolitico end-to-end, un processo ad alta intensità di risorse che manca di flessibilità. Questo articolo esplora un approccio alternativo e costruttivo allo sviluppo di modelli, basato su rappresentazioni di input deterministiche e non addestrabili. In precedenza [1], abbiamo dimostrato che il ragionamento semantico di alto livello può emergere nei Transformer utilizzando embedding congelati derivati dalla struttura visiva dei glifi Unicode. Qui, dimostriamo che questo substrato rappresentativo fisso funge da "porto di attracco" universale, abilitando due potenti ed efficienti paradigmi di ridimensionamento: la composizione modulare senza soluzione di continuità e la crescita progressiva strato per strato.
In primo luogo, mostriamo che modelli specializzati addestrati su dataset diversi (ad esempio, testi in russo e cinese) possono essere fusi in un unico modello Mixture-of-Experts (MoE) più capace, dopo l'addestramento, senza alcuna modifica architetturale. Ciò è ottenuto semplicemente mediando i loro logit di output. Il modello MoE risultante mostra miglioramenti immediati nelle prestazioni su benchmark di ragionamento come MMLU, superando i suoi esperti costituenti senza dimenticanza catastrofica. In secondo luogo, introduciamo una metodologia di addestramento costruttivo strato per strato, in cui un Transformer profondo viene "cresciuto" aggiungendo e addestrando progressivamente uno strato alla volta. Questo metodo dimostra una convergenza stabile e una chiara correlazione tra la profondità del modello e l'emergere di abilità di ragionamento complesso, come quelle richieste per SQuAD.
I nostri risultati suggeriscono un cambiamento di paradigma dall'ottimizzazione monolitica verso un modello di sviluppo dell'IA più biologico o costruttivo, in cui la complessità è costruita in modo incrementale e i moduli possono essere composti liberamente. Ciò apre nuove strade per un ridimensionamento efficiente delle risorse, l'apprendimento continuo e un ecosistema più democratizzato per la costruzione di potenti sistemi di IA. Rilasciamo tutto il codice e i modelli per facilitare ulteriori ricerche.
English
The prevailing paradigm for scaling large language models (LLMs) involves
monolithic, end-to-end training, a resource-intensive process that lacks
flexibility. This paper explores an alternative, constructive approach to model
development, built upon the foundation of non-trainable, deterministic input
embeddings. In prior [1], we established that high-level semantic reasoning can
emerge in Transformers using frozen embeddings derived from the visual
structure of Unicode glyphs. Here, we demonstrate that this fixed
representational substrate acts as a universal "docking port," enabling two
powerful and efficient scaling paradigms: seamless modular composition and
progressive layer-wise growth.
First, we show that specialist models trained on disparate datasets (e.g.,
Russian and Chinese text) can be merged into a single, more capable
Mixture-of-Experts (MoE) model, post-training, with zero architectural
modification. This is achieved by simply averaging their output logits. The
resulting MoE model exhibits immediate performance improvements on reasoning
benchmarks like MMLU, surpassing its constituent experts without catastrophic
forgetting. Second, we introduce a layer-wise constructive training
methodology, where a deep Transformer is "grown" by progressively stacking and
training one layer at a time. This method demonstrates stable convergence and a
clear correlation between model depth and the emergence of complex reasoning
abilities, such as those required for SQuAD.
Our findings suggest a paradigm shift from monolithic optimization towards a
more biological or constructive model of AI development, where complexity is
built incrementally and modules can be composed freely. This opens new avenues
for resource-efficient scaling, continual learning, and a more democratized
ecosystem for building powerful AI systems. We release all code and models to
facilitate further research.