Les petits modèles constituent des extensions précieuses pour les grands modèles de langage.
Small Models are Valuable Plug-ins for Large Language Models
May 15, 2023
Auteurs: Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, Julian McAuley
cs.AI
Résumé
Les grands modèles de langage (LLMs) tels que GPT-3 et GPT-4 sont puissants, mais leurs poids ne sont souvent pas disponibles publiquement et leurs tailles immenses rendent ces modèles difficiles à ajuster avec du matériel courant. Par conséquent, l'ajustement efficace de ces modèles avec des données supervisées à grande échelle peut s'avérer complexe. Comme alternative, l'apprentissage en contexte (In-Context Learning, ICL) ne peut utiliser qu'un petit nombre d'exemples supervisés en raison des limites de longueur de contexte. Dans cet article, nous proposons le Super In-Context Learning (SuperICL), qui permet aux LLMs en boîte noire de fonctionner avec des modèles plus petits ajustés localement, offrant ainsi des performances supérieures sur des tâches supervisées. Nos expériences démontrent que SuperICL peut améliorer les performances au-delà des modèles ajustés de pointe tout en résolvant le problème d'instabilité de l'apprentissage en contexte. De plus, SuperICL peut renforcer les capacités des modèles plus petits, telles que le multilinguisme et l'interprétabilité.
English
Large language models (LLMs) such as GPT-3 and GPT-4 are powerful but their
weights are often publicly unavailable and their immense sizes make the models
difficult to be tuned with common hardware. As a result, effectively tuning
these models with large-scale supervised data can be challenging. As an
alternative, In-Context Learning (ICL) can only use a small number of
supervised examples due to context length limits. In this paper, we propose
Super In-Context Learning (SuperICL) which allows black-box LLMs to work with
locally fine-tuned smaller models, resulting in superior performance on
supervised tasks. Our experiments demonstrate that SuperICL can improve
performance beyond state-of-the-art fine-tuned models while addressing the
instability problem of in-context learning. Furthermore, SuperICL can enhance
the capabilities of smaller models, such as multilinguality and
interpretability.