ChatPaper.aiChatPaper

Обучение извлечению контекстных примеров для больших языковых моделей

Learning to Retrieve In-Context Examples for Large Language Models

July 14, 2023
Авторы: Liang Wang, Nan Yang, Furu Wei
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали способность к обучению в контексте, что позволяет им выполнять различные задачи на основе нескольких примеров входных и выходных данных. Однако эффективность такого обучения в контексте сильно зависит от качества выбранных примеров. В данной статье мы предлагаем новый фреймворк для итеративного обучения плотных моделей поиска, которые могут идентифицировать высококачественные примеры для LLM. Наш фреймворк сначала обучает модель оценки на основе обратной связи от LLM для определения качества кандидатов, а затем использует дистилляцию знаний для обучения плотной модели поиска на основе би-энкодера. Эксперименты на наборе из 30 задач показывают, что наш фреймворк значительно улучшает производительность обучения в контексте. Кроме того, мы демонстрируем способность нашего фреймворка к обобщению на задачи, не встречавшиеся во время обучения. Подробный анализ показывает, что наша модель улучшает производительность за счет поиска примеров с похожими паттернами, и эти улучшения согласуются для LLM различного размера.
English
Large language models (LLMs) have demonstrated their ability to learn in-context, allowing them to perform various tasks based on a few input-output examples. However, the effectiveness of in-context learning is heavily reliant on the quality of the selected examples. In this paper, we propose a novel framework to iteratively train dense retrievers that can identify high-quality in-context examples for LLMs. Our framework initially trains a reward model based on LLM feedback to evaluate the quality of candidate examples, followed by knowledge distillation to train a bi-encoder based dense retriever. Our experiments on a suite of 30 tasks demonstrate that our framework significantly enhances in-context learning performance. Furthermore, we show the generalization ability of our framework to unseen tasks during training. An in-depth analysis reveals that our model improves performance by retrieving examples with similar patterns, and the gains are consistent across LLMs of varying sizes.
PDF220December 15, 2024