대규모 언어 모델을 활용한 모호성 인식 인컨텍스트 학습
Ambiguity-Aware In-Context Learning with Large Language Models
September 14, 2023
저자: Lingyu Gao, Aditi Chaudhary, Krishna Srinivasan, Kazuma Hashimoto, Karthik Raman, Michael Bendersky
cs.AI
초록
컨텍스트 내 학습(In-context learning, ICL), 즉 대형 언어 모델(LLM)에 작업별 몇 가지 데모만 보여주는 방식은 작업별 미세 조정 없이도 다운스트림 성능 향상을 이끌어냈습니다. 그러나 LLM은 프롬프트 선택에 민감하기 때문에, ICL을 위한 좋은 데모를 어떻게 선택할지가 중요한 연구 주제입니다. 한 가지 효과적인 전략은 텍스트 검색기를 사용하여 ICL 데모와 테스트 입력 간의 의미적 유사성을 활용하는 것이지만, 이는 해당 작업에 대한 LLM의 기존 지식을 고려하지 않기 때문에 최적이 아닙니다. 선행 연구(Min et al., 2022)에서 우리는 이미 데모와 함께 제공된 레이블이 모델 예측에 편향을 일으킨다는 사실을 알고 있습니다. 이는 LLM의 기존 작업 지식, 특히 출력 레이블 공간과 관련된 지식을 고려하는 것이 더 나은 데모 선택 전략에 도움이 될 수 있는지에 대한 가설로 이어집니다. 세 가지 텍스트 분류 작업에 대한 광범위한 실험을 통해, 우리는 의미적으로 유사한 ICL 데모를 선택하는 것뿐만 아니라 테스트 예제 주변의 내재된 레이블 모호성을 해결하는 데 도움이 되는 데모를 선택하는 것이 유리하다는 사실을 발견했습니다. 흥미롭게도, LLM이 이전에 잘못 분류했고 테스트 예제의 결정 경계에 위치한 데모를 포함하는 것이 가장 큰 성능 향상을 가져온다는 점도 확인했습니다.
English
In-context learning (ICL) i.e. showing LLMs only a few task-specific
demonstrations has led to downstream gains with no task-specific fine-tuning
required. However, LLMs are sensitive to the choice of prompts, and therefore a
crucial research question is how to select good demonstrations for ICL. One
effective strategy is leveraging semantic similarity between the ICL
demonstrations and test inputs by using a text retriever, which however is
sub-optimal as that does not consider the LLM's existing knowledge about that
task. From prior work (Min et al., 2022), we already know that labels paired
with the demonstrations bias the model predictions. This leads us to our
hypothesis whether considering LLM's existing knowledge about the task,
especially with respect to the output label space can help in a better
demonstration selection strategy. Through extensive experimentation on three
text classification tasks, we find that it is beneficial to not only choose
semantically similar ICL demonstrations but also to choose those demonstrations
that help resolve the inherent label ambiguity surrounding the test example.
Interestingly, we find that including demonstrations that the LLM previously
mis-classified and also fall on the test example's decision boundary, brings
the most performance gain.