Transformer 레이어를 화가로 비유하기

초록

대규모 언어 모델에서 거의 보편적으로 채택되고 있음에도 불구하고, 트랜스포머의 내부 작동 방식은 잘 이해되지 않고 있습니다. 우리는 사전 학습된 트랜스포머의 각 계층에서 정보를 제거하거나 재구성하는 것이 미치는 영향을 더 잘 이해하는 것을 목표로 합니다. 이러한 이해는 기존 모델을 더 잘 활용하는 데 도움을 줄 뿐만 아니라 새로운 변종을 만들기 위한 아키텍처 개선에도 기여할 수 있습니다. 우리는 고정된(frozen) 모델에 대한 일련의 실험적 연구를 통해, 사전 학습된 트랜스포머의 하위 계층과 최종 계층이 중간 계층과 다르지만, 중간 계층은 놀라울 정도로 균일성을 보인다는 것을 보여줍니다. 또한, 특정 문제 유형은 계층을 건너뛰거나, 학습된 순서와 다르게 계층을 실행하거나, 계층을 병렬로 실행하는 데 대해 강건성을 보인다는 것을 추가로 보여줍니다. 우리의 관찰은 고정된 사전 학습 모델도 계층을 건너뛰거나 병렬로 실행함으로써 정확도와 지연 시간(latency) 사이에서 유연하게 균형을 맞출 수 있음을 시사합니다.

English

Despite their nearly universal adoption for large language models, the internal workings of transformers are not well understood. We aim to better understand the impact of removing or reorganizing information throughout the layers of a pretrained transformer. Such an understanding could both yield better usage of existing models as well as to make architectural improvements to produce new variants. We present a series of empirical studies on frozen models that show that the lower and final layers of pretrained transformers differ from middle layers, but that middle layers have a surprising amount of uniformity. We further show that some classes of problems have robustness to skipping layers, running the layers in an order different from how they were trained, or running the layers in parallel. Our observations suggest that even frozen pretrained models may gracefully trade accuracy for latency by skipping layers or running layers in parallel.