Crescimento de Transformers: Composição Modular e Expansão Camada a Camada em um Substrato Congelado

Resumo

O paradigma predominante para escalar modelos de linguagem de grande escala (LLMs) envolve treinamento monolítico de ponta a ponta, um processo intensivo em recursos que carece de flexibilidade. Este artigo explora uma abordagem alternativa e construtiva para o desenvolvimento de modelos, baseada na fundação de embeddings de entrada determinísticos e não treináveis. Em trabalhos anteriores [1], estabelecemos que o raciocínio semântico de alto nível pode emergir em Transformers usando embeddings congelados derivados da estrutura visual de glifos Unicode. Aqui, demonstramos que esse substrato representacional fixo atua como uma "porta de acoplamento" universal, permitindo dois paradigmas poderosos e eficientes de escalonamento: composição modular contínua e crescimento progressivo camada por camada. Primeiro, mostramos que modelos especialistas treinados em conjuntos de dados distintos (por exemplo, textos em russo e chinês) podem ser combinados em um único modelo mais capaz de Mistura de Especialistas (MoE), após o treinamento, sem nenhuma modificação arquitetônica. Isso é alcançado simplesmente pela média de seus logits de saída. O modelo MoE resultante exibe melhorias imediatas de desempenho em benchmarks de raciocínio como o MMLU, superando seus especialistas constituintes sem sofrer esquecimento catastrófico. Segundo, introduzimos uma metodologia de treinamento construtivo camada por camada, onde um Transformer profundo é "crescido" pela adição e treinamento progressivo de uma camada por vez. Esse método demonstra convergência estável e uma clara correlação entre a profundidade do modelo e a emergência de habilidades de raciocínio complexo, como as necessárias para o SQuAD. Nossas descobertas sugerem uma mudança de paradigma da otimização monolítica para um modelo mais biológico ou construtivo de desenvolvimento de IA, onde a complexidade é construída incrementalmente e os módulos podem ser compostos livremente. Isso abre novas vias para escalonamento eficiente em termos de recursos, aprendizado contínuo e um ecossistema mais democratizado para a construção de sistemas de IA poderosos. Disponibilizamos todo o código e modelos para facilitar pesquisas futuras.

English

The prevailing paradigm for scaling large language models (LLMs) involves monolithic, end-to-end training, a resource-intensive process that lacks flexibility. This paper explores an alternative, constructive approach to model development, built upon the foundation of non-trainable, deterministic input embeddings. In prior [1], we established that high-level semantic reasoning can emerge in Transformers using frozen embeddings derived from the visual structure of Unicode glyphs. Here, we demonstrate that this fixed representational substrate acts as a universal "docking port," enabling two powerful and efficient scaling paradigms: seamless modular composition and progressive layer-wise growth. First, we show that specialist models trained on disparate datasets (e.g., Russian and Chinese text) can be merged into a single, more capable Mixture-of-Experts (MoE) model, post-training, with zero architectural modification. This is achieved by simply averaging their output logits. The resulting MoE model exhibits immediate performance improvements on reasoning benchmarks like MMLU, surpassing its constituent experts without catastrophic forgetting. Second, we introduce a layer-wise constructive training methodology, where a deep Transformer is "grown" by progressively stacking and training one layer at a time. This method demonstrates stable convergence and a clear correlation between model depth and the emergence of complex reasoning abilities, such as those required for SQuAD. Our findings suggest a paradigm shift from monolithic optimization towards a more biological or constructive model of AI development, where complexity is built incrementally and modules can be composed freely. This opens new avenues for resource-efficient scaling, continual learning, and a more democratized ecosystem for building powerful AI systems. We release all code and models to facilitate further research.

Crescimento de Transformers: Composição Modular e Expansão Camada a Camada em um Substrato Congelado

Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

Resumo

Support