제한된 도메인 데이터로 저비용 추론이 가능한 전문화된 언어 모델
Specialized Language Models with Cheap Inference from Limited Domain Data
February 2, 2024
저자: David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun
cs.AI
초록
대형 언어 모델은 다목적 도구로 부상했지만, 큰 추론 예산과 대규모 도메인 내 훈련 데이터셋이 없는 작업에 적용하기는 어려운 문제가 있습니다. 본 연구는 이러한 제약 조건을 공식화하고 네 가지 중요한 변수를 구분합니다: 사전 훈련 예산(대상 도메인이 알려지기 전의 훈련), 전문화 예산(대상 도메인이 알려진 후의 훈련), 추론 예산, 그리고 도메인 내 훈련 데이터셋 크기입니다. 이러한 설정들에 걸쳐, 우리는 머신 러닝 문헌에서 다양한 접근법을 비교합니다. 추론 비용에 제한을 받는 상황에서, 우리는 매우 큰 일반 트랜스포머 모델을 훈련시키는 표준 관행보다 더 나은 대안을 찾았습니다. 특히, 우리는 하이퍼 네트워크와 전문가 혼합 모델이 큰 사전 훈련 예산에서 더 나은 복잡도를 보임을 입증했으며, 중요도 샘플링된 데이터셋으로 훈련된 소형 모델이 큰 전문화 예산에서 매력적임을 보여줍니다.
English
Large language models have emerged as a versatile tool but are challenging to
apply to tasks lacking large inference budgets and large in-domain training
sets. This work formalizes these constraints and distinguishes four important
variables: the pretraining budget (for training before the target domain is
known), the specialization budget (for training after the target domain is
known), the inference budget, and the in-domain training set size. Across these
settings, we compare different approaches from the machine learning literature.
Limited by inference cost, we find better alternatives to the standard practice
of training very large vanilla transformer models. In particular, we show that
hyper-networks and mixture of experts have better perplexity for large
pretraining budgets, while small models trained on importance sampled datasets
are attractive for large specialization budgets.