트랜스포머 아키텍처를 위한 구성 가능한 함수 보존 확장
Composable Function-preserving Expansions for Transformer Architectures
August 11, 2023
저자: Andrea Gesmundo, Kaitlin Maile
cs.AI
초록
최신 기술 수준의 신경망을 훈련시키는 데는 컴퓨팅 자원과 시간 측면에서 높은 비용이 요구됩니다. 모델 규모는 최신 기술을 달성하고 개선하기 위한 핵심 요소로 인식되고 있습니다. 신경망의 규모를 증가시키는 것은 일반적으로 모델의 모든 파라미터를 무작위로 초기화하여 처음부터 다시 시작해야 합니다. 이는 아키텍처 파라미터의 변경을 수반하기 때문에 더 작은 규모의 모델로부터의 지식을 직접적으로 전달하기 어렵기 때문입니다. 본 연구에서는 트랜스포머 기반 신경망의 크기를 점진적으로 증가시키면서도 기능을 보존할 수 있는 여섯 가지 구성 가능한 변환 방법을 제안합니다. 이를 통해 필요에 따라 모델의 용량을 확장할 수 있습니다. 각 변환에 대해 최소한의 초기화 조건 하에서 정확한 기능 보존을 증명합니다. 제안된 방법은 훈련 과정에서 아키텍처를 점진적으로 확장함으로써 더 크고 강력한 모델을 위한 효율적인 훈련 파이프라인을 가능하게 할 수 있습니다.
English
Training state-of-the-art neural networks requires a high cost in terms of
compute and time. Model scale is recognized to be a critical factor to achieve
and improve the state-of-the-art. Increasing the scale of a neural network
normally requires restarting from scratch by randomly initializing all the
parameters of the model, as this implies a change of architecture's parameters
that does not allow for a straightforward transfer of knowledge from smaller
size models. In this work, we propose six composable transformations to
incrementally increase the size of transformer-based neural networks while
preserving functionality, allowing to expand the capacity of the model as
needed. We provide proof of exact function preservation under minimal
initialization constraints for each transformation. The proposed methods may
enable efficient training pipelines for larger and more powerful models by
progressively expanding the architecture throughout training.