ChatPaper.aiChatPaper

Kleine modellen zijn waardevolle plug-ins voor grote taalmodellen.

Small Models are Valuable Plug-ins for Large Language Models

May 15, 2023
Auteurs: Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, Julian McAuley
cs.AI

Samenvatting

Grote taalmodelen (LLMs) zoals GPT-3 en GPT-4 zijn krachtig, maar hun gewichten zijn vaak niet publiekelijk beschikbaar en hun enorme omvang maakt het moeilijk om de modellen af te stemmen met gangbare hardware. Als gevolg hiervan kan het effectief afstemmen van deze modellen met grootschalige begeleide data een uitdaging zijn. Als alternatief kan In-Context Learning (ICL) slechts een beperkt aantal begeleide voorbeelden gebruiken vanwege beperkingen in de contextlengte. In dit artikel stellen we Super In-Context Learning (SuperICL) voor, waardoor black-box LLMs kunnen samenwerken met lokaal afgestemde kleinere modellen, wat resulteert in superieure prestaties bij begeleide taken. Onze experimenten tonen aan dat SuperICL de prestaties kan verbeteren verder dan state-of-the-art afgestemde modellen, terwijl het ook het instabiliteitsprobleem van in-context learning aanpakt. Bovendien kan SuperICL de mogelijkheden van kleinere modellen versterken, zoals meertaligheid en interpreteerbaarheid.
English
Large language models (LLMs) such as GPT-3 and GPT-4 are powerful but their weights are often publicly unavailable and their immense sizes make the models difficult to be tuned with common hardware. As a result, effectively tuning these models with large-scale supervised data can be challenging. As an alternative, In-Context Learning (ICL) can only use a small number of supervised examples due to context length limits. In this paper, we propose Super In-Context Learning (SuperICL) which allows black-box LLMs to work with locally fine-tuned smaller models, resulting in superior performance on supervised tasks. Our experiments demonstrate that SuperICL can improve performance beyond state-of-the-art fine-tuned models while addressing the instability problem of in-context learning. Furthermore, SuperICL can enhance the capabilities of smaller models, such as multilinguality and interpretability.
PDF40December 15, 2024