고정된 기반 위에서의 모듈식 구성 및 계층별 확장을 통한 트랜스포머 성장
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate
July 8, 2025
저자: A. Bochkov
cs.AI
초록
대규모 언어 모델(LLM)을 확장하기 위한 현재의 패러다임은 단일체적이고 종단 간(end-to-end) 훈련에 기반을 두고 있으며, 이는 유연성이 부족한 자원 집약적인 과정입니다. 본 논문은 비훈련 가능하고 결정론적인 입력 임베딩을 기반으로 한 대안적이고 구성적인 모델 개발 접근법을 탐구합니다. 이전 연구[1]에서 우리는 유니코드 글리프의 시각적 구조에서 도출된 고정된 임베딩을 사용하여 트랜스포머에서 고차원적인 의미론적 추론이 발생할 수 있음을 입증했습니다. 여기서 우리는 이러한 고정된 표현 기반이 보편적인 "도킹 포트" 역할을 하여 두 가지 강력하고 효율적인 확장 패러다임을 가능하게 한다는 것을 보여줍니다: 원활한 모듈식 구성과 점진적인 계층적 성장입니다.
먼저, 서로 다른 데이터셋(예: 러시아어 및 중국어 텍스트)에 대해 훈련된 전문가 모델들이 훈련 후에 아키텍처 수정 없이 단일한 Mixture-of-Experts(MoE) 모델로 통합될 수 있음을 보여줍니다. 이는 단순히 출력 로짓을 평균화함으로써 달성됩니다. 결과적으로 생성된 MoE 모델은 MMLU와 같은 추론 벤치마크에서 즉각적인 성능 향상을 보이며, 구성 요소 전문가들을 능가하면서도 치명적인 망각(catastrophic forgetting) 없이 이를 달성합니다. 둘째, 우리는 깊은 트랜스포머를 한 번에 하나의 계층을 점진적으로 쌓아가며 훈련시키는 계층적 구성적 훈련 방법론을 소개합니다. 이 방법은 안정적인 수렴과 모델 깊이와 복잡한 추론 능력(예: SQuAD에 필요한 능력)의 출현 사이의 명확한 상관관계를 보여줍니다.
우리의 연구 결과는 단일체적 최적화에서 생물학적 또는 구성적인 AI 개발 모델로의 패러다임 전환을 시사합니다. 여기서 복잡성은 점진적으로 구축되고 모듈은 자유롭게 구성될 수 있습니다. 이는 자원 효율적인 확장, 지속 학습, 그리고 강력한 AI 시스템을 구축하기 위한 보다 민주화된 생태계를 위한 새로운 길을 열어줍니다. 우리는 추가 연구를 촉진하기 위해 모든 코드와 모델을 공개합니다.
English
The prevailing paradigm for scaling large language models (LLMs) involves
monolithic, end-to-end training, a resource-intensive process that lacks
flexibility. This paper explores an alternative, constructive approach to model
development, built upon the foundation of non-trainable, deterministic input
embeddings. In prior [1], we established that high-level semantic reasoning can
emerge in Transformers using frozen embeddings derived from the visual
structure of Unicode glyphs. Here, we demonstrate that this fixed
representational substrate acts as a universal "docking port," enabling two
powerful and efficient scaling paradigms: seamless modular composition and
progressive layer-wise growth.
First, we show that specialist models trained on disparate datasets (e.g.,
Russian and Chinese text) can be merged into a single, more capable
Mixture-of-Experts (MoE) model, post-training, with zero architectural
modification. This is achieved by simply averaging their output logits. The
resulting MoE model exhibits immediate performance improvements on reasoning
benchmarks like MMLU, surpassing its constituent experts without catastrophic
forgetting. Second, we introduce a layer-wise constructive training
methodology, where a deep Transformer is "grown" by progressively stacking and
training one layer at a time. This method demonstrates stable convergence and a
clear correlation between model depth and the emergence of complex reasoning
abilities, such as those required for SQuAD.
Our findings suggest a paradigm shift from monolithic optimization towards a
more biological or constructive model of AI development, where complexity is
built incrementally and modules can be composed freely. This opens new avenues
for resource-efficient scaling, continual learning, and a more democratized
ecosystem for building powerful AI systems. We release all code and models to
facilitate further research.