Разрастающиеся трансформаторы: модульная композиция и послойное расширение на замороженной основе
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate
July 8, 2025
Авторы: A. Bochkov
cs.AI
Аннотация
Преобладающая парадигма масштабирования больших языковых моделей (LLM) предполагает монолитное сквозное обучение — ресурсоемкий процесс, который отличается недостаточной гибкостью. В данной статье исследуется альтернативный, конструктивный подход к разработке моделей, основанный на использовании нетренируемых, детерминированных входных эмбеддингов. В предыдущей работе [1] мы показали, что высокоуровневое семантическое рассуждение может возникать в трансформерах при использовании замороженных эмбеддингов, полученных из визуальной структуры Unicode-глифов. Здесь мы демонстрируем, что этот фиксированный репрезентационный субстрат действует как универсальный «стыковочный порт», позволяющий реализовать два мощных и эффективных подхода к масштабированию: бесшовную модульную композицию и прогрессивное послойное наращивание.
Во-первых, мы показываем, что специализированные модели, обученные на различных наборах данных (например, на русских и китайских текстах), могут быть объединены в единую, более мощную модель Mixture-of-Experts (MoE) после обучения без каких-либо архитектурных изменений. Это достигается простым усреднением их выходных логитов. Полученная MoE-модель демонстрирует немедленное улучшение производительности на тестах рассуждений, таких как MMLU, превосходя свои составные эксперты без катастрофического забывания. Во-вторых, мы представляем послойную конструктивную методику обучения, в которой глубокий трансформер «наращивается» путем постепенного добавления и обучения одного слоя за раз. Этот метод демонстрирует стабильную сходимость и четкую корреляцию между глубиной модели и возникновением сложных способностей к рассуждению, таких как те, что требуются для SQuAD.
Наши результаты указывают на сдвиг парадигмы от монолитной оптимизации в сторону более биологического или конструктивного подхода к разработке ИИ, где сложность строится постепенно, а модули могут свободно комбинироваться. Это открывает новые возможности для ресурсоэффективного масштабирования, непрерывного обучения и создания более демократизированной экосистемы для разработки мощных систем ИИ. Мы публикуем весь код и модели, чтобы способствовать дальнейшим исследованиям.
English
The prevailing paradigm for scaling large language models (LLMs) involves
monolithic, end-to-end training, a resource-intensive process that lacks
flexibility. This paper explores an alternative, constructive approach to model
development, built upon the foundation of non-trainable, deterministic input
embeddings. In prior [1], we established that high-level semantic reasoning can
emerge in Transformers using frozen embeddings derived from the visual
structure of Unicode glyphs. Here, we demonstrate that this fixed
representational substrate acts as a universal "docking port," enabling two
powerful and efficient scaling paradigms: seamless modular composition and
progressive layer-wise growth.
First, we show that specialist models trained on disparate datasets (e.g.,
Russian and Chinese text) can be merged into a single, more capable
Mixture-of-Experts (MoE) model, post-training, with zero architectural
modification. This is achieved by simply averaging their output logits. The
resulting MoE model exhibits immediate performance improvements on reasoning
benchmarks like MMLU, surpassing its constituent experts without catastrophic
forgetting. Second, we introduce a layer-wise constructive training
methodology, where a deep Transformer is "grown" by progressively stacking and
training one layer at a time. This method demonstrates stable convergence and a
clear correlation between model depth and the emergence of complex reasoning
abilities, such as those required for SQuAD.
Our findings suggest a paradigm shift from monolithic optimization towards a
more biological or constructive model of AI development, where complexity is
built incrementally and modules can be composed freely. This opens new avenues
for resource-efficient scaling, continual learning, and a more democratized
ecosystem for building powerful AI systems. We release all code and models to
facilitate further research.