ChatPaper.aiChatPaper

裁判官を裁く:LLM裁判官の整合性と脆弱性の評価

Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

June 18, 2024
著者: Aman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes
cs.AI

要旨

人間による評価に伴うスケーラビリティの課題に対する有望な解決策として、LLM-as-a-judgeパラダイムは大規模言語モデル(LLM)の評価手法として急速に注目を集めています。しかし、このパラダイムの強みと弱み、および潜在的なバイアスについては、まだ多くの未解決の疑問が残されています。本論文では、さまざまなLLMが審査役として機能する際の性能について包括的な研究を提示します。我々は、LLMの客観的な知識推論を評価するためのベンチマークとしてTriviaQAを活用し、高い相互注釈者一致率を示した人間の注釈とともに評価を行いました。本研究では、9つの審査役モデルと9つの受験者モデル(ベースモデルと指示チューニングモデルの両方)を含んでいます。審査役モデルの整合性を、異なるモデルサイズ、ファミリー、および審査プロンプトにわたって評価しました。他の結果の中でも、我々の研究は、単純な一致率ではなく、コーエンのカッパを整合性の指標として使用することの重要性を再発見し、高い一致率を持つ審査役でも大きく異なるスコアを付ける可能性があることを示しました。Llama-3 70BとGPT-4 Turboは人間との優れた整合性を示しましたが、受験者モデルのランキングに関しては、JudgeLM-7Bと語彙的審査役Containsに劣り、これらは人間との整合性が最大34ポイント低いことがわかりました。エラー分析や指示の長さや寛容性バイアスの影響を含むさまざまな研究を通じて、将来的にLLMを審査役として使用するための貴重な知見を提供することを目指しています。
English
Offering a promising solution to the scalability challenges associated with human evaluation, the LLM-as-a-judge paradigm is rapidly gaining traction as an approach to evaluating large language models (LLMs). However, there are still many open questions about the strengths and weaknesses of this paradigm, and what potential biases it may hold. In this paper, we present a comprehensive study of the performance of various LLMs acting as judges. We leverage TriviaQA as a benchmark for assessing objective knowledge reasoning of LLMs and evaluate them alongside human annotations which we found to have a high inter-annotator agreement. Our study includes 9 judge models and 9 exam taker models -- both base and instruction-tuned. We assess the judge model's alignment across different model sizes, families, and judge prompts. Among other results, our research rediscovers the importance of using Cohen's kappa as a metric of alignment as opposed to simple percent agreement, showing that judges with high percent agreement can still assign vastly different scores. We find that both Llama-3 70B and GPT-4 Turbo have an excellent alignment with humans, but in terms of ranking exam taker models, they are outperformed by both JudgeLM-7B and the lexical judge Contains, which have up to 34 points lower human alignment. Through error analysis and various other studies, including the effects of instruction length and leniency bias, we hope to provide valuable lessons for using LLMs as judges in the future.

Summary

AI-Generated Summary

PDF385November 29, 2024