ChatPaper.aiChatPaper

曖昧性を考慮した大規模言語モデルによるインコンテキスト学習

Ambiguity-Aware In-Context Learning with Large Language Models

September 14, 2023
著者: Lingyu Gao, Aditi Chaudhary, Krishna Srinivasan, Kazuma Hashimoto, Karthik Raman, Michael Bendersky
cs.AI

要旨

インコンテクスト学習(ICL)、すなわち大規模言語モデル(LLM)にタスク固有の少数のデモンストレーションを示すことで、タスク固有のファインチューニングを必要とせずに下流の性能向上がもたらされることが明らかになっています。しかし、LLMはプロンプトの選択に敏感であり、そのため重要な研究課題は、ICLのための良いデモンストレーションをどのように選択するかです。一つの有効な戦略は、テキスト検索器を使用してICLデモンストレーションとテスト入力間の意味的類似性を活用することですが、これはLLMがそのタスクについて持つ既存の知識を考慮しないため、最適とは言えません。先行研究(Min et al., 2022)から、デモンストレーションとペアになったラベルがモデルの予測にバイアスをかけることが既にわかっています。これにより、特に出力ラベル空間に関してLLMの既存の知識を考慮することが、より良いデモンストレーション選択戦略に役立つかどうかという仮説を立てました。3つのテキスト分類タスクにおける広範な実験を通じて、意味的に類似したICLデモンストレーションを選択するだけでなく、テスト例に内在するラベルの曖昧さを解決するのに役立つデモンストレーションを選択することが有益であることを発見しました。興味深いことに、LLMが以前に誤分類したデモンストレーションで、かつテスト例の決定境界上にあるものを含めることが、最も大きな性能向上をもたらすことがわかりました。
English
In-context learning (ICL) i.e. showing LLMs only a few task-specific demonstrations has led to downstream gains with no task-specific fine-tuning required. However, LLMs are sensitive to the choice of prompts, and therefore a crucial research question is how to select good demonstrations for ICL. One effective strategy is leveraging semantic similarity between the ICL demonstrations and test inputs by using a text retriever, which however is sub-optimal as that does not consider the LLM's existing knowledge about that task. From prior work (Min et al., 2022), we already know that labels paired with the demonstrations bias the model predictions. This leads us to our hypothesis whether considering LLM's existing knowledge about the task, especially with respect to the output label space can help in a better demonstration selection strategy. Through extensive experimentation on three text classification tasks, we find that it is beneficial to not only choose semantically similar ICL demonstrations but also to choose those demonstrations that help resolve the inherent label ambiguity surrounding the test example. Interestingly, we find that including demonstrations that the LLM previously mis-classified and also fall on the test example's decision boundary, brings the most performance gain.
PDF51December 15, 2024