ChatPaper.aiChatPaper

大規模言語モデルの自動キャリブレーションと誤り訂正: パレート最適化に基づく自己教師あり学習

Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision

June 28, 2023
著者: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
cs.AI

要旨

大規模言語モデル(LLM)は、幅広いアプリケーションにおいてそのまま使用しても驚くべき能力を発揮しますが、特にバイオメディシンなどのミッションクリティカルな領域では、精度が主要な成長分野として残っています。LLMの応答に対する信頼度を効果的に調整する方法は、エラーを自動的に検出し、人間を介した検証を促進するために不可欠です。この調整信号の重要な源は、専門家が規定するプログラム的な監視であり、これはしばしば低コストで利用可能ですが、ノイズやカバレッジなどの制限もあります。本論文では、利用可能なプログラム的な監視を活用して、追加の手作業なしに、すべての応答に対してリスクスコアを生成することで、LLMの応答を体系的に調整するパレート最適な自己監視フレームワークを紹介します。これは、LLMの出力を他の利用可能な監視源と整合させるハーモナイザーモデルを学習することで実現され、より不確実なLLMの応答に高いリスクスコアを割り当て、エラー修正を促進します。バイオメディシンおよび一般領域における標準的な関係抽出タスクでの実験は、このアプローチの有望性を示しており、提案されたリスクスコアはLLMの実際のエラーレートと高い相関を示しています。最も不確実なテストインスタンスに対して、提案されたリスクスコアに基づく動的プロンプティングは、既存のLLMの精度を大幅に向上させ、GPT-3の結果を最先端(SOTA)の弱い監視を超えさせ、GPT-4の結果を挑戦的な評価データセットでのSOTAの監視結果を超えさせました。
English
Large language models (LLMs) have demonstrated remarkable capabilities out of box for a wide range of applications, yet accuracy still remains a major growth area, especially in mission-critical domains such as biomedicine. An effective method to calibrate the confidence level on LLM responses is essential to automatically detect errors and facilitate human-in-the-loop verification. An important source of calibration signals stems from expert-stipulated programmatic supervision, which is often available at low cost but has its own limitations such as noise and coverage. In this paper, we introduce a Pareto optimal self-supervision framework that can leverage available programmatic supervision to systematically calibrate LLM responses by producing a risk score for every response, without any additional manual efforts. This is accomplished by learning a harmonizer model to align LLM output with other available supervision sources, which would assign higher risk scores to more uncertain LLM responses and facilitate error correction. Experiments on standard relation extraction tasks in biomedical and general domains demonstrate the promise of this approach, with our proposed risk scores highly correlated with the real error rate of LLMs. For the most uncertain test instances, dynamic prompting based on our proposed risk scores results in significant accuracy improvement for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA) weak supervision and GPT-4 results past SOTA supervised results on challenging evaluation datasets.
PDF31December 15, 2024