教師あり知識は大規模言語モデルのインコンテキスト学習能力を向上させる
Supervised Knowledge Makes Large Language Models Better In-context Learners
December 26, 2023
著者: Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang
cs.AI
要旨
大規模言語モデル(LLMs)は、プロンプトエンジニアリングを通じて、文脈内学習能力の萌芽を示しています。大規模生成モデルの最近の進展により、現実世界の言語アプリケーションにおけるその利用がさらに拡大しています。しかし、自然言語理解と質問応答におけるLLMsの汎用性と事実性を向上させるという重要な課題は、まだ十分に探究されていません。これまでの文脈内学習研究は、ユーザーの特定の指示と品質期待に従うこと、および望ましくない出力を避けることに焦点を当ててきましたが、推論段階でのLLMsの文脈内学習を改善するために、タスク固有にファインチューニングされた言語モデル(SLMs)を活用する研究はほとんど行われていませんでした。私たちの主な貢献は、LLMsの信頼性を向上させるシンプルでありながら効果的なフレームワークの確立です。このフレームワークは、1) 分布外データの汎化、2) LLMsが識別モデルからどのように利益を得るかの解明、3) 生成タスクにおける幻覚の最小化を実現します。私たちが提案するプラグインメソッドを使用することで、Llama 2とChatGPTの強化バージョンは、汎用性と事実性においてオリジナルバージョンを凌駕します。私たちは、9つの異なるタスクにわたる16の精選されたデータセット、プロンプト、モデルチェックポイント、およびLLM出力を含む包括的なリソーススイートを提供します。私たちの実証分析は、識別モデルをLLMsに組み込むことの利点を明らかにし、私たちの方法論がより信頼性の高いLLMsを育む可能性を強調しています。
English
Large Language Models (LLMs) exhibit emerging in-context learning abilities
through prompt engineering. The recent progress in large-scale generative
models has further expanded their use in real-world language applications.
However, the critical challenge of improving the generalizability and
factuality of LLMs in natural language understanding and question answering
remains under-explored. While previous in-context learning research has focused
on enhancing models to adhere to users' specific instructions and quality
expectations, and to avoid undesired outputs, little to no work has explored
the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs'
in-context learning during the inference stage. Our primary contribution is the
establishment of a simple yet effective framework that enhances the reliability
of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs
benefit from discriminative models, and 3) minimizes hallucinations in
generative tasks. Using our proposed plug-in method, enhanced versions of Llama
2 and ChatGPT surpass their original versions regarding generalizability and
factuality. We offer a comprehensive suite of resources, including 16 curated
datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks.
Our empirical analysis sheds light on the advantages of incorporating
discriminative models into LLMs and highlights the potential of our methodology
in fostering more reliable LLMs.