曖昧性を考慮した大規模言語モデルによるインコンテキスト学習
Ambiguity-Aware In-Context Learning with Large Language Models
September 14, 2023
著者: Lingyu Gao, Aditi Chaudhary, Krishna Srinivasan, Kazuma Hashimoto, Karthik Raman, Michael Bendersky
cs.AI
要旨
インコンテクスト学習(ICL)、すなわち大規模言語モデル(LLM)にタスク固有の少数のデモンストレーションを示すことで、タスク固有のファインチューニングを必要とせずに下流の性能向上がもたらされることが明らかになっています。しかし、LLMはプロンプトの選択に敏感であり、そのため重要な研究課題は、ICLのための良いデモンストレーションをどのように選択するかです。一つの有効な戦略は、テキスト検索器を使用してICLデモンストレーションとテスト入力間の意味的類似性を活用することですが、これはLLMがそのタスクについて持つ既存の知識を考慮しないため、最適とは言えません。先行研究(Min et al., 2022)から、デモンストレーションとペアになったラベルがモデルの予測にバイアスをかけることが既にわかっています。これにより、特に出力ラベル空間に関してLLMの既存の知識を考慮することが、より良いデモンストレーション選択戦略に役立つかどうかという仮説を立てました。3つのテキスト分類タスクにおける広範な実験を通じて、意味的に類似したICLデモンストレーションを選択するだけでなく、テスト例に内在するラベルの曖昧さを解決するのに役立つデモンストレーションを選択することが有益であることを発見しました。興味深いことに、LLMが以前に誤分類したデモンストレーションで、かつテスト例の決定境界上にあるものを含めることが、最も大きな性能向上をもたらすことがわかりました。
English
In-context learning (ICL) i.e. showing LLMs only a few task-specific
demonstrations has led to downstream gains with no task-specific fine-tuning
required. However, LLMs are sensitive to the choice of prompts, and therefore a
crucial research question is how to select good demonstrations for ICL. One
effective strategy is leveraging semantic similarity between the ICL
demonstrations and test inputs by using a text retriever, which however is
sub-optimal as that does not consider the LLM's existing knowledge about that
task. From prior work (Min et al., 2022), we already know that labels paired
with the demonstrations bias the model predictions. This leads us to our
hypothesis whether considering LLM's existing knowledge about the task,
especially with respect to the output label space can help in a better
demonstration selection strategy. Through extensive experimentation on three
text classification tasks, we find that it is beneficial to not only choose
semantically similar ICL demonstrations but also to choose those demonstrations
that help resolve the inherent label ambiguity surrounding the test example.
Interestingly, we find that including demonstrations that the LLM previously
mis-classified and also fall on the test example's decision boundary, brings
the most performance gain.