Apprendre à récupérer des exemples en contexte pour les grands modèles de langage
Learning to Retrieve In-Context Examples for Large Language Models
July 14, 2023
Auteurs: Liang Wang, Nan Yang, Furu Wei
cs.AI
Résumé
Les grands modèles de langage (LLM) ont démontré leur capacité à apprendre en contexte, leur permettant d'exécuter diverses tâches à partir de quelques exemples d'entrées-sorties. Cependant, l'efficacité de l'apprentissage en contexte dépend fortement de la qualité des exemples sélectionnés. Dans cet article, nous proposons un nouveau cadre pour entraîner itérativement des récupérateurs denses capables d'identifier des exemples de haute qualité pour les LLM. Notre cadre commence par entraîner un modèle de récompense basé sur les retours des LLM pour évaluer la qualité des exemples candidats, suivi d'une distillation de connaissances pour entraîner un récupérateur dense basé sur un bi-encodeur. Nos expériences sur un ensemble de 30 tâches montrent que notre cadre améliore significativement les performances de l'apprentissage en contexte. De plus, nous démontrons la capacité de généralisation de notre cadre à des tâches non vues pendant l'entraînement. Une analyse approfondie révèle que notre modèle améliore les performances en récupérant des exemples présentant des motifs similaires, et ces gains sont cohérents pour des LLM de tailles variées.
English
Large language models (LLMs) have demonstrated their ability to learn
in-context, allowing them to perform various tasks based on a few input-output
examples. However, the effectiveness of in-context learning is heavily reliant
on the quality of the selected examples. In this paper, we propose a novel
framework to iteratively train dense retrievers that can identify high-quality
in-context examples for LLMs. Our framework initially trains a reward model
based on LLM feedback to evaluate the quality of candidate examples, followed
by knowledge distillation to train a bi-encoder based dense retriever. Our
experiments on a suite of 30 tasks demonstrate that our framework significantly
enhances in-context learning performance. Furthermore, we show the
generalization ability of our framework to unseen tasks during training. An
in-depth analysis reveals that our model improves performance by retrieving
examples with similar patterns, and the gains are consistent across LLMs of
varying sizes.