파레토 최적 자기 지도를 통한 대규모 언어 모델의 자동 보정 및 오류 수정
Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision
June 28, 2023
저자: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
cs.AI
초록
대규모 언어 모델(LLM)은 다양한 응용 분야에서 즉시 사용 가능한 뛰어난 능력을 보여주었지만, 특히 생물의학과 같은 임무가 중요한 분야에서는 정확도가 여전히 주요 성장 영역으로 남아 있습니다. LLM 응답에 대한 신뢰 수준을 효과적으로 조정하는 방법은 오류를 자동으로 감지하고 인간 중심 검증을 용이하게 하는 데 필수적입니다. 이러한 조정 신호의 중요한 원천은 전문가가 규정한 프로그램적 감독에서 비롯되며, 이는 종종 낮은 비용으로 이용 가능하지만 노이즈와 커버리지와 같은 자체적인 한계를 가지고 있습니다. 본 논문에서는 추가적인 수작업 없이 모든 응답에 대한 위험 점수를 생성함으로써 이용 가능한 프로그램적 감독을 활용하여 LLM 응답을 체계적으로 조정할 수 있는 파레토 최적 자기 감독 프레임워크를 소개합니다. 이는 LLM 출력과 다른 이용 가능한 감독 소스를 정렬하기 위한 조정 모델을 학습함으로써 달성되며, 이 모델은 더 불확실한 LLM 응답에 더 높은 위험 점수를 할당하고 오류 수정을 용이하게 합니다. 생물의학 및 일반 도메인의 표준 관계 추출 작업에 대한 실험은 이 접근법의 유망성을 보여주며, 제안된 위험 점수는 LLM의 실제 오류율과 높은 상관관계를 보입니다. 가장 불확실한 테스트 인스턴스의 경우, 제안된 위험 점수를 기반으로 한 동적 프롬프팅은 즉시 사용 가능한 LLM의 정확도를 크게 향상시켜, GPT-3 결과를 최신 약한 감독 결과를 넘어서게 하고, GPT-4 결과를 도전적인 평가 데이터셋에서 최신 감독 결과를 넘어서게 합니다.
English
Large language models (LLMs) have demonstrated remarkable capabilities out of
box for a wide range of applications, yet accuracy still remains a major growth
area, especially in mission-critical domains such as biomedicine. An effective
method to calibrate the confidence level on LLM responses is essential to
automatically detect errors and facilitate human-in-the-loop verification. An
important source of calibration signals stems from expert-stipulated
programmatic supervision, which is often available at low cost but has its own
limitations such as noise and coverage. In this paper, we introduce a Pareto
optimal self-supervision framework that can leverage available programmatic
supervision to systematically calibrate LLM responses by producing a risk score
for every response, without any additional manual efforts. This is accomplished
by learning a harmonizer model to align LLM output with other available
supervision sources, which would assign higher risk scores to more uncertain
LLM responses and facilitate error correction. Experiments on standard relation
extraction tasks in biomedical and general domains demonstrate the promise of
this approach, with our proposed risk scores highly correlated with the real
error rate of LLMs. For the most uncertain test instances, dynamic prompting
based on our proposed risk scores results in significant accuracy improvement
for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA)
weak supervision and GPT-4 results past SOTA supervised results on challenging
evaluation datasets.