Creciendo Transformers: Composición Modular y Expansión por Capas sobre un Sustrato Congelado
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate
July 8, 2025
Autores: A. Bochkov
cs.AI
Resumen
El paradigma predominante para escalar modelos de lenguaje grandes (LLMs) implica un entrenamiento monolítico de extremo a extremo, un proceso intensivo en recursos que carece de flexibilidad. Este artículo explora un enfoque alternativo y constructivo para el desarrollo de modelos, basado en la fundación de incrustaciones de entrada determinísticas y no entrenables. En trabajos previos [1], establecimos que el razonamiento semántico de alto nivel puede emerger en Transformers utilizando incrustaciones congeladas derivadas de la estructura visual de los glifos Unicode. Aquí, demostramos que este sustrato representacional fijo actúa como un "puerto de acoplamiento" universal, permitiendo dos paradigmas potentes y eficientes de escalamiento: la composición modular sin fisuras y el crecimiento progresivo capa por capa.
Primero, mostramos que modelos especializados entrenados en conjuntos de datos dispares (por ejemplo, texto en ruso y chino) pueden fusionarse en un único modelo Mixture-of-Experts (MoE) más capaz, después del entrenamiento, sin modificaciones arquitectónicas. Esto se logra simplemente promediando sus logits de salida. El modelo MoE resultante exhibe mejoras inmediatas en el rendimiento en benchmarks de razonamiento como MMLU, superando a sus expertos constituyentes sin olvido catastrófico. Segundo, introducimos una metodología de entrenamiento constructivo capa por capa, donde un Transformer profundo se "hace crecer" apilando y entrenando progresivamente una capa a la vez. Este método demuestra una convergencia estable y una clara correlación entre la profundidad del modelo y la emergencia de habilidades de razonamiento complejo, como las requeridas para SQuAD.
Nuestros hallazgos sugieren un cambio de paradigma desde la optimización monolítica hacia un modelo más biológico o constructivo de desarrollo de IA, donde la complejidad se construye de manera incremental y los módulos pueden componerse libremente. Esto abre nuevas vías para un escalamiento eficiente en recursos, aprendizaje continuo y un ecosistema más democratizado para construir sistemas de IA potentes. Liberamos todo el código y modelos para facilitar investigaciones futuras.
English
The prevailing paradigm for scaling large language models (LLMs) involves
monolithic, end-to-end training, a resource-intensive process that lacks
flexibility. This paper explores an alternative, constructive approach to model
development, built upon the foundation of non-trainable, deterministic input
embeddings. In prior [1], we established that high-level semantic reasoning can
emerge in Transformers using frozen embeddings derived from the visual
structure of Unicode glyphs. Here, we demonstrate that this fixed
representational substrate acts as a universal "docking port," enabling two
powerful and efficient scaling paradigms: seamless modular composition and
progressive layer-wise growth.
First, we show that specialist models trained on disparate datasets (e.g.,
Russian and Chinese text) can be merged into a single, more capable
Mixture-of-Experts (MoE) model, post-training, with zero architectural
modification. This is achieved by simply averaging their output logits. The
resulting MoE model exhibits immediate performance improvements on reasoning
benchmarks like MMLU, surpassing its constituent experts without catastrophic
forgetting. Second, we introduce a layer-wise constructive training
methodology, where a deep Transformer is "grown" by progressively stacking and
training one layer at a time. This method demonstrates stable convergence and a
clear correlation between model depth and the emergence of complex reasoning
abilities, such as those required for SQuAD.
Our findings suggest a paradigm shift from monolithic optimization towards a
more biological or constructive model of AI development, where complexity is
built incrementally and modules can be composed freely. This opens new avenues
for resource-efficient scaling, continual learning, and a more democratized
ecosystem for building powerful AI systems. We release all code and models to
facilitate further research.