Контролируемые знания улучшают способность крупных языковых моделей к обучению в контексте
Supervised Knowledge Makes Large Language Models Better In-context Learners
December 26, 2023
Авторы: Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют развивающиеся способности к обучению в контексте с помощью инженерии промптов. Недавние достижения в области крупномасштабных генеративных моделей расширили их применение в реальных языковых задачах. Однако ключевая проблема повышения обобщаемости и достоверности LLM в задачах понимания естественного языка и ответов на вопросы остается недостаточно изученной. В то время как предыдущие исследования в области обучения в контексте были сосредоточены на улучшении способности моделей следовать конкретным инструкциям пользователей и ожиданиям качества, а также на предотвращении нежелательных выводов, практически не было работ, посвященных использованию специализированных тонко настроенных языковых моделей (SLM) для улучшения обучения LLM в контексте на этапе вывода. Наш основной вклад заключается в создании простого, но эффективного фреймворка, который повышает надежность LLM, так как он: 1) обобщает данные, выходящие за пределы распределения, 2) объясняет, как LLM могут извлекать пользу из дискриминативных моделей, и 3) минимизирует галлюцинации в генеративных задачах. Используя наш предложенный метод подключаемых модулей, улучшенные версии Llama 2 и ChatGPT превосходят свои оригинальные версии по обобщаемости и достоверности. Мы предоставляем комплексный набор ресурсов, включая 16 тщательно отобранных наборов данных, промптов, контрольных точек моделей и выводов LLM для 9 различных задач. Наш эмпирический анализ раскрывает преимущества интеграции дискриминативных моделей в LLM и подчеркивает потенциал нашей методологии в создании более надежных LLM.
English
Large Language Models (LLMs) exhibit emerging in-context learning abilities
through prompt engineering. The recent progress in large-scale generative
models has further expanded their use in real-world language applications.
However, the critical challenge of improving the generalizability and
factuality of LLMs in natural language understanding and question answering
remains under-explored. While previous in-context learning research has focused
on enhancing models to adhere to users' specific instructions and quality
expectations, and to avoid undesired outputs, little to no work has explored
the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs'
in-context learning during the inference stage. Our primary contribution is the
establishment of a simple yet effective framework that enhances the reliability
of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs
benefit from discriminative models, and 3) minimizes hallucinations in
generative tasks. Using our proposed plug-in method, enhanced versions of Llama
2 and ChatGPT surpass their original versions regarding generalizability and
factuality. We offer a comprehensive suite of resources, including 16 curated
datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks.
Our empirical analysis sheds light on the advantages of incorporating
discriminative models into LLMs and highlights the potential of our methodology
in fostering more reliable LLMs.