Kleine modellen zijn waardevolle plug-ins voor grote taalmodellen.
Small Models are Valuable Plug-ins for Large Language Models
May 15, 2023
Auteurs: Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, Julian McAuley
cs.AI
Samenvatting
Grote taalmodelen (LLMs) zoals GPT-3 en GPT-4 zijn krachtig, maar hun gewichten zijn vaak niet publiekelijk beschikbaar en hun enorme omvang maakt het moeilijk om de modellen af te stemmen met gangbare hardware. Als gevolg hiervan kan het effectief afstemmen van deze modellen met grootschalige begeleide data een uitdaging zijn. Als alternatief kan In-Context Learning (ICL) slechts een beperkt aantal begeleide voorbeelden gebruiken vanwege beperkingen in de contextlengte. In dit artikel stellen we Super In-Context Learning (SuperICL) voor, waardoor black-box LLMs kunnen samenwerken met lokaal afgestemde kleinere modellen, wat resulteert in superieure prestaties bij begeleide taken. Onze experimenten tonen aan dat SuperICL de prestaties kan verbeteren verder dan state-of-the-art afgestemde modellen, terwijl het ook het instabiliteitsprobleem van in-context learning aanpakt. Bovendien kan SuperICL de mogelijkheden van kleinere modellen versterken, zoals meertaligheid en interpreteerbaarheid.
English
Large language models (LLMs) such as GPT-3 and GPT-4 are powerful but their
weights are often publicly unavailable and their immense sizes make the models
difficult to be tuned with common hardware. As a result, effectively tuning
these models with large-scale supervised data can be challenging. As an
alternative, In-Context Learning (ICL) can only use a small number of
supervised examples due to context length limits. In this paper, we propose
Super In-Context Learning (SuperICL) which allows black-box LLMs to work with
locally fine-tuned smaller models, resulting in superior performance on
supervised tasks. Our experiments demonstrate that SuperICL can improve
performance beyond state-of-the-art fine-tuned models while addressing the
instability problem of in-context learning. Furthermore, SuperICL can enhance
the capabilities of smaller models, such as multilinguality and
interpretability.