ChatPaper.aiChatPaper

파레토 최적 자기 지도를 통한 대규모 언어 모델의 자동 보정 및 오류 수정

Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision

June 28, 2023
저자: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
cs.AI

초록

대규모 언어 모델(LLM)은 다양한 응용 분야에서 즉시 사용 가능한 뛰어난 능력을 보여주었지만, 특히 생물의학과 같은 임무가 중요한 분야에서는 정확도가 여전히 주요 성장 영역으로 남아 있습니다. LLM 응답에 대한 신뢰 수준을 효과적으로 조정하는 방법은 오류를 자동으로 감지하고 인간 중심 검증을 용이하게 하는 데 필수적입니다. 이러한 조정 신호의 중요한 원천은 전문가가 규정한 프로그램적 감독에서 비롯되며, 이는 종종 낮은 비용으로 이용 가능하지만 노이즈와 커버리지와 같은 자체적인 한계를 가지고 있습니다. 본 논문에서는 추가적인 수작업 없이 모든 응답에 대한 위험 점수를 생성함으로써 이용 가능한 프로그램적 감독을 활용하여 LLM 응답을 체계적으로 조정할 수 있는 파레토 최적 자기 감독 프레임워크를 소개합니다. 이는 LLM 출력과 다른 이용 가능한 감독 소스를 정렬하기 위한 조정 모델을 학습함으로써 달성되며, 이 모델은 더 불확실한 LLM 응답에 더 높은 위험 점수를 할당하고 오류 수정을 용이하게 합니다. 생물의학 및 일반 도메인의 표준 관계 추출 작업에 대한 실험은 이 접근법의 유망성을 보여주며, 제안된 위험 점수는 LLM의 실제 오류율과 높은 상관관계를 보입니다. 가장 불확실한 테스트 인스턴스의 경우, 제안된 위험 점수를 기반으로 한 동적 프롬프팅은 즉시 사용 가능한 LLM의 정확도를 크게 향상시켜, GPT-3 결과를 최신 약한 감독 결과를 넘어서게 하고, GPT-4 결과를 도전적인 평가 데이터셋에서 최신 감독 결과를 넘어서게 합니다.
English
Large language models (LLMs) have demonstrated remarkable capabilities out of box for a wide range of applications, yet accuracy still remains a major growth area, especially in mission-critical domains such as biomedicine. An effective method to calibrate the confidence level on LLM responses is essential to automatically detect errors and facilitate human-in-the-loop verification. An important source of calibration signals stems from expert-stipulated programmatic supervision, which is often available at low cost but has its own limitations such as noise and coverage. In this paper, we introduce a Pareto optimal self-supervision framework that can leverage available programmatic supervision to systematically calibrate LLM responses by producing a risk score for every response, without any additional manual efforts. This is accomplished by learning a harmonizer model to align LLM output with other available supervision sources, which would assign higher risk scores to more uncertain LLM responses and facilitate error correction. Experiments on standard relation extraction tasks in biomedical and general domains demonstrate the promise of this approach, with our proposed risk scores highly correlated with the real error rate of LLMs. For the most uncertain test instances, dynamic prompting based on our proposed risk scores results in significant accuracy improvement for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA) weak supervision and GPT-4 results past SOTA supervised results on challenging evaluation datasets.
PDF31December 15, 2024