Aprendendo a Recuperar Exemplos In-Contexto para Modelos de Linguagem de Grande Escala
Learning to Retrieve In-Context Examples for Large Language Models
July 14, 2023
Autores: Liang Wang, Nan Yang, Furu Wei
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) demonstraram sua capacidade de aprender em contexto, permitindo que realizem diversas tarefas com base em alguns exemplos de entrada e saída. No entanto, a eficácia do aprendizado em contexto depende fortemente da qualidade dos exemplos selecionados. Neste artigo, propomos uma nova estrutura para treinar iterativamente recuperadores densos que podem identificar exemplos de alta qualidade para LLMs. Nossa estrutura inicialmente treina um modelo de recompensa com base no feedback do LLM para avaliar a qualidade dos exemplos candidatos, seguido por destilação de conhecimento para treinar um recuperador denso baseado em bi-encoders. Nossos experimentos em um conjunto de 30 tarefas demonstram que nossa estrutura melhora significativamente o desempenho do aprendizado em contexto. Além disso, mostramos a capacidade de generalização da nossa estrutura para tarefas não vistas durante o treinamento. Uma análise detalhada revela que nosso modelo melhora o desempenho ao recuperar exemplos com padrões semelhantes, e os ganhos são consistentes em LLMs de diferentes tamanhos.
English
Large language models (LLMs) have demonstrated their ability to learn
in-context, allowing them to perform various tasks based on a few input-output
examples. However, the effectiveness of in-context learning is heavily reliant
on the quality of the selected examples. In this paper, we propose a novel
framework to iteratively train dense retrievers that can identify high-quality
in-context examples for LLMs. Our framework initially trains a reward model
based on LLM feedback to evaluate the quality of candidate examples, followed
by knowledge distillation to train a bi-encoder based dense retriever. Our
experiments on a suite of 30 tasks demonstrate that our framework significantly
enhances in-context learning performance. Furthermore, we show the
generalization ability of our framework to unseen tasks during training. An
in-depth analysis reveals that our model improves performance by retrieving
examples with similar patterns, and the gains are consistent across LLMs of
varying sizes.