生成から判断へ:LLMを裁判官として活用する機会と課題
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge
November 25, 2024
著者: Dawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu
cs.AI
要旨
評価と評価は人工知能(AI)と自然言語処理(NLP)における長年の重要な課題でした。しかしながら、従来の方法、マッチングベースまたは埋め込みベースのいずれも、微妙な属性を判断し、満足のいく結果を提供することがしばしばできません。大規模言語モデル(LLMs)の最近の進歩は、「LLMを判定者として」のパラダイムを着想させ、LLMsがさまざまなタスクやアプリケーション全体でスコアリング、ランキング、または選択を行うために活用されています。本論文は、LLMに基づく判断と評価の包括的な調査を提供し、この新興分野を推進するための詳細な概要を提供します。まず、入力と出力の両面から詳細な定義を示します。次に、何を判断するか、どのように判断するか、どこで判断するかという3つの側面からLLMを判定者として探るための包括的な分類法を紹介します。最後に、LLMを判定者として評価するためのベンチマークを編纂し、主要な課題と有望な方向を強調し、この有望な研究分野における貴重な示唆を提供し、将来の研究を刺激することを目指しています。LLMを判定者として評価するための論文リストやその他のリソースは、https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge および https://llm-as-a-judge.github.io で見つけることができます。
English
Assessment and evaluation have long been critical challenges in artificial
intelligence (AI) and natural language processing (NLP). However, traditional
methods, whether matching-based or embedding-based, often fall short of judging
subtle attributes and delivering satisfactory results. Recent advancements in
Large Language Models (LLMs) inspire the "LLM-as-a-judge" paradigm, where LLMs
are leveraged to perform scoring, ranking, or selection across various tasks
and applications. This paper provides a comprehensive survey of LLM-based
judgment and assessment, offering an in-depth overview to advance this emerging
field. We begin by giving detailed definitions from both input and output
perspectives. Then we introduce a comprehensive taxonomy to explore
LLM-as-a-judge from three dimensions: what to judge, how to judge and where to
judge. Finally, we compile benchmarks for evaluating LLM-as-a-judge and
highlight key challenges and promising directions, aiming to provide valuable
insights and inspire future research in this promising research area. Paper
list and more resources about LLM-as-a-judge can be found at
https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge and
https://llm-as-a-judge.github.io.Summary
AI-Generated Summary