ChatPaper.aiChatPaper

Les petits modèles constituent des extensions précieuses pour les grands modèles de langage.

Small Models are Valuable Plug-ins for Large Language Models

May 15, 2023
Auteurs: Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, Julian McAuley
cs.AI

Résumé

Les grands modèles de langage (LLMs) tels que GPT-3 et GPT-4 sont puissants, mais leurs poids ne sont souvent pas disponibles publiquement et leurs tailles immenses rendent ces modèles difficiles à ajuster avec du matériel courant. Par conséquent, l'ajustement efficace de ces modèles avec des données supervisées à grande échelle peut s'avérer complexe. Comme alternative, l'apprentissage en contexte (In-Context Learning, ICL) ne peut utiliser qu'un petit nombre d'exemples supervisés en raison des limites de longueur de contexte. Dans cet article, nous proposons le Super In-Context Learning (SuperICL), qui permet aux LLMs en boîte noire de fonctionner avec des modèles plus petits ajustés localement, offrant ainsi des performances supérieures sur des tâches supervisées. Nos expériences démontrent que SuperICL peut améliorer les performances au-delà des modèles ajustés de pointe tout en résolvant le problème d'instabilité de l'apprentissage en contexte. De plus, SuperICL peut renforcer les capacités des modèles plus petits, telles que le multilinguisme et l'interprétabilité.
English
Large language models (LLMs) such as GPT-3 and GPT-4 are powerful but their weights are often publicly unavailable and their immense sizes make the models difficult to be tuned with common hardware. As a result, effectively tuning these models with large-scale supervised data can be challenging. As an alternative, In-Context Learning (ICL) can only use a small number of supervised examples due to context length limits. In this paper, we propose Super In-Context Learning (SuperICL) which allows black-box LLMs to work with locally fine-tuned smaller models, resulting in superior performance on supervised tasks. Our experiments demonstrate that SuperICL can improve performance beyond state-of-the-art fine-tuned models while addressing the instability problem of in-context learning. Furthermore, SuperICL can enhance the capabilities of smaller models, such as multilinguality and interpretability.
PDF40December 15, 2024