ChatPaper.aiChatPaper

작은 모델은 대형 언어 모델을 위한 가치 있는 플러그인이다

Small Models are Valuable Plug-ins for Large Language Models

May 15, 2023
저자: Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, Julian McAuley
cs.AI

초록

GPT-3 및 GPT-4와 같은 대형 언어 모델(LLMs)은 강력하지만, 그 가중치(weights)가 공개적으로 제공되지 않는 경우가 많으며, 그 거대한 크기로 인해 일반적인 하드웨어로는 이러한 모델을 미세 조정(tuning)하기가 어렵습니다. 결과적으로, 대규모 지도 학습 데이터를 사용하여 이러한 모델을 효과적으로 조정하는 것은 어려운 과제가 될 수 있습니다. 대안으로, 인-컨텍스트 학습(In-Context Learning, ICL)은 컨텍스트 길이 제한으로 인해 소량의 지도 학습 예제만을 사용할 수 있습니다. 본 논문에서는 블랙박스 LLMs가 로컬에서 미세 조정된 더 작은 모델과 협력할 수 있도록 하는 Super In-Context Learning(SuperICL)을 제안하며, 이를 통해 지도 학습 작업에서 우수한 성능을 달성할 수 있습니다. 우리의 실험은 SuperICL이 최신 미세 조정 모델을 넘어서는 성능 향상을 제공할 뿐만 아니라, 인-컨텍스트 학습의 불안정성 문제를 해결할 수 있음을 보여줍니다. 또한, SuperICL은 다국어 처리 및 해석 가능성과 같은 더 작은 모델의 기능을 향상시킬 수 있습니다.
English
Large language models (LLMs) such as GPT-3 and GPT-4 are powerful but their weights are often publicly unavailable and their immense sizes make the models difficult to be tuned with common hardware. As a result, effectively tuning these models with large-scale supervised data can be challenging. As an alternative, In-Context Learning (ICL) can only use a small number of supervised examples due to context length limits. In this paper, we propose Super In-Context Learning (SuperICL) which allows black-box LLMs to work with locally fine-tuned smaller models, resulting in superior performance on supervised tasks. Our experiments demonstrate that SuperICL can improve performance beyond state-of-the-art fine-tuned models while addressing the instability problem of in-context learning. Furthermore, SuperICL can enhance the capabilities of smaller models, such as multilinguality and interpretability.
PDF40December 15, 2024