Croissance des Transformers : Composition modulaire et expansion couche par couche sur un substrat gelé
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate
July 8, 2025
papers.authors: A. Bochkov
cs.AI
papers.abstract
Le paradigme dominant pour l'extension des grands modèles de langage (LLM) repose sur un apprentissage monolithique de bout en bout, un processus gourmand en ressources et manquant de flexibilité. Cet article explore une approche alternative et constructive pour le développement de modèles, fondée sur des embeddings d'entrée déterministes et non entraînables. Dans des travaux antérieurs [1], nous avons démontré qu'un raisonnement sémantique de haut niveau peut émerger dans les Transformers en utilisant des embeddings figés dérivés de la structure visuelle des glyphes Unicode. Ici, nous montrons que ce substrat représentationnel fixe agit comme un "port d'accueil" universel, permettant deux paradigmes puissants et efficaces pour l'extension : la composition modulaire transparente et la croissance progressive couche par couche.
Premièrement, nous montrons que des modèles spécialisés entraînés sur des ensembles de données disparates (par exemple, des textes en russe et en chinois) peuvent être fusionnés en un seul modèle Mixture-of-Experts (MoE) plus performant, après l'entraînement, sans aucune modification architecturale. Cela est réalisé simplement en moyennant leurs logits de sortie. Le modèle MoE résultant présente des améliorations immédiates de performance sur des benchmarks de raisonnement comme MMLU, surpassant ses experts constitutifs sans oubli catastrophique. Deuxièmement, nous introduisons une méthodologie d'entraînement constructive couche par couche, où un Transformer profond est "cultivé" en empilant et en entraînant progressivement une couche à la fois. Cette méthode démontre une convergence stable et une corrélation claire entre la profondeur du modèle et l'émergence de capacités de raisonnement complexes, comme celles requises pour SQuAD.
Nos résultats suggèrent un changement de paradigme, passant d'une optimisation monolithique à un modèle de développement de l'IA plus biologique ou constructif, où la complexité est construite de manière incrémentale et les modules peuvent être composés librement. Cela ouvre de nouvelles voies pour une extension économe en ressources, un apprentissage continu et un écosystème plus démocratisé pour la construction de systèmes d'IA puissants. Nous publions l'intégralité du code et des modèles pour faciliter les recherches ultérieures.
English
The prevailing paradigm for scaling large language models (LLMs) involves
monolithic, end-to-end training, a resource-intensive process that lacks
flexibility. This paper explores an alternative, constructive approach to model
development, built upon the foundation of non-trainable, deterministic input
embeddings. In prior [1], we established that high-level semantic reasoning can
emerge in Transformers using frozen embeddings derived from the visual
structure of Unicode glyphs. Here, we demonstrate that this fixed
representational substrate acts as a universal "docking port," enabling two
powerful and efficient scaling paradigms: seamless modular composition and
progressive layer-wise growth.
First, we show that specialist models trained on disparate datasets (e.g.,
Russian and Chinese text) can be merged into a single, more capable
Mixture-of-Experts (MoE) model, post-training, with zero architectural
modification. This is achieved by simply averaging their output logits. The
resulting MoE model exhibits immediate performance improvements on reasoning
benchmarks like MMLU, surpassing its constituent experts without catastrophic
forgetting. Second, we introduce a layer-wise constructive training
methodology, where a deep Transformer is "grown" by progressively stacking and
training one layer at a time. This method demonstrates stable convergence and a
clear correlation between model depth and the emergence of complex reasoning
abilities, such as those required for SQuAD.
Our findings suggest a paradigm shift from monolithic optimization towards a
more biological or constructive model of AI development, where complexity is
built incrementally and modules can be composed freely. This opens new avenues
for resource-efficient scaling, continual learning, and a more democratized
ecosystem for building powerful AI systems. We release all code and models to
facilitate further research.