LLM 확장 LLM: 구성을 통한 능력 확장
LLM Augmented LLMs: Expanding Capabilities through Composition
January 4, 2024
저자: Rachit Bansal, Bidisha Samanta, Siddharth Dalmia, Nitish Gupta, Shikhar Vashishth, Sriram Ganapathy, Abhishek Bapna, Prateek Jain, Partha Talukdar
cs.AI
초록
수십억 개의 파라미터를 가진 기초 모델들은 대규모 데이터 코퍼스로 학습되어 다양한 도메인에서 상당한 능력을 보여주고 있습니다. 그러나 이러한 모델들은 단일 구조로 인해 새로운 기능을 추가하거나 새로운 기술을 가르치는 것이 어렵고 비용이 많이 듭니다. 반면, 이러한 모델들의 적응 능력 덕분에 새로운 도메인과 작업을 위해 여러 새로운 인스턴스가 학습되고 있습니다. 본 연구에서는 기존 기초 모델과 보다 특화된 모델을 효율적이고 실용적으로 결합하여 새로운 기능을 가능하게 하는 문제를 탐구합니다. 이를 위해 우리는 CALM(Composition to Augment Language Models)을 제안합니다. CALM은 모델 간의 교차 주의(cross-attention)를 도입하여 표현을 결합하고 새로운 기능을 가능하게 합니다. CALM의 주요 특징은 다음과 같습니다: (i) 기존 LLM(Large Language Model)을 '재사용'하고 몇 가지 추가 파라미터와 데이터를 통해 새로운 작업에서 LLM을 확장, (ii) 기존 모델 가중치를 그대로 유지하여 기존 기능 보존, (iii) 다양한 도메인과 설정에 적용 가능. 우리는 PaLM2-S를 저자원 언어에 대해 학습된 더 작은 모델로 보강했을 때, 저자원 언어에 대한 영어 번역 및 산술 추론 작업에서 최대 13%의 절대적 성능 향상을 보여줍니다. 마찬가지로, PaLM2-S를 코드 특화 모델로 보강했을 때, 코드 생성 및 설명 작업에서 기본 모델 대비 40%의 상대적 성능 향상을 보이며, 완전히 미세 조정된 모델과 동등한 성능을 달성합니다.
English
Foundational models with billions of parameters which have been trained on
large corpora of data have demonstrated non-trivial skills in a variety of
domains. However, due to their monolithic structure, it is challenging and
expensive to augment them or impart new skills. On the other hand, due to their
adaptation abilities, several new instances of these models are being trained
towards new domains and tasks. In this work, we study the problem of efficient
and practical composition of existing foundation models with more specific
models to enable newer capabilities. To this end, we propose CALM --
Composition to Augment Language Models -- which introduces cross-attention
between models to compose their representations and enable new capabilities.
Salient features of CALM are: (i) Scales up LLMs on new tasks by 're-using'
existing LLMs along with a few additional parameters and data, (ii) Existing
model weights are kept intact, and hence preserves existing capabilities, and
(iii) Applies to diverse domains and settings. We illustrate that augmenting
PaLM2-S with a smaller model trained on low-resource languages results in an
absolute improvement of up to 13\% on tasks like translation into English and
arithmetic reasoning for low-resource languages. Similarly, when PaLM2-S is
augmented with a code-specific model, we see a relative improvement of 40\%
over the base model for code generation and explanation tasks -- on-par with
fully fine-tuned counterparts.