La connaissance supervisée améliore les grands modèles de langage en tant qu'apprenants en contexte
Supervised Knowledge Makes Large Language Models Better In-context Learners
December 26, 2023
papers.authors: Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) démontrent des capacités émergentes d'apprentissage en contexte grâce à l'ingénierie des prompts. Les récents progrès dans les modèles génératifs à grande échelle ont encore élargi leur utilisation dans des applications linguistiques réelles. Cependant, le défi crucial d'améliorer la généralisabilité et la factualité des LLMs dans la compréhension du langage naturel et le question-réponse reste peu exploré. Alors que les recherches précédentes sur l'apprentissage en contexte se sont concentrées sur l'amélioration des modèles pour qu'ils respectent les instructions spécifiques des utilisateurs et leurs attentes de qualité, et pour éviter les sorties indésirables, peu ou pas de travaux ont exploré l'utilisation de modèles de langage spécifiquement affinés pour des tâches (SLMs) pour améliorer l'apprentissage en contexte des LLMs pendant l'étape d'inférence. Notre contribution principale est l'établissement d'un cadre simple mais efficace qui améliore la fiabilité des LLMs en : 1) généralisant les données hors distribution, 2) élucidant comment les LLMs bénéficient des modèles discriminatifs, et 3) minimisant les hallucinations dans les tâches génératives. En utilisant notre méthode proposée de type plug-in, les versions améliorées de Llama 2 et ChatGPT surpassent leurs versions originales en termes de généralisabilité et de factualité. Nous offrons une suite complète de ressources, incluant 16 ensembles de données soigneusement sélectionnés, des prompts, des points de contrôle de modèles, et les sorties des LLMs sur 9 tâches distinctes. Notre analyse empirique met en lumière les avantages de l'intégration de modèles discriminatifs dans les LLMs et souligne le potentiel de notre méthodologie pour favoriser des LLMs plus fiables.
English
Large Language Models (LLMs) exhibit emerging in-context learning abilities
through prompt engineering. The recent progress in large-scale generative
models has further expanded their use in real-world language applications.
However, the critical challenge of improving the generalizability and
factuality of LLMs in natural language understanding and question answering
remains under-explored. While previous in-context learning research has focused
on enhancing models to adhere to users' specific instructions and quality
expectations, and to avoid undesired outputs, little to no work has explored
the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs'
in-context learning during the inference stage. Our primary contribution is the
establishment of a simple yet effective framework that enhances the reliability
of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs
benefit from discriminative models, and 3) minimizes hallucinations in
generative tasks. Using our proposed plug-in method, enhanced versions of Llama
2 and ChatGPT surpass their original versions regarding generalizability and
factuality. We offer a comprehensive suite of resources, including 16 curated
datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks.
Our empirical analysis sheds light on the advantages of incorporating
discriminative models into LLMs and highlights the potential of our methodology
in fostering more reliable LLMs.