ChatPaper.aiChatPaper

Von der Generierung bis zur Bewertung: Chancen und Herausforderungen von LLM-als-Richter

From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

November 25, 2024
Autoren: Dawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu
cs.AI

Zusammenfassung

Bewertung und Evaluierung waren schon lange kritische Herausforderungen in der künstlichen Intelligenz (KI) und der natürlichen Sprachverarbeitung (NLP). Allerdings reichen herkömmliche Methoden, ob auf Übereinstimmungen basierend oder auf Einbettungen basierend, oft nicht aus, um subtile Merkmale zu beurteilen und zufriedenstellende Ergebnisse zu liefern. Die jüngsten Fortschritte bei Large Language Models (LLMs) inspirieren das Paradigma "LLM-als-Richter", bei dem LLMs genutzt werden, um Bewertungen, Rangfolgen oder Auswahl in verschiedenen Aufgaben und Anwendungen durchzuführen. Dieses Papier bietet eine umfassende Übersicht über die auf LLMs basierende Bewertung und Beurteilung und bietet einen eingehenden Überblick, um dieses aufstrebende Gebiet voranzubringen. Wir beginnen mit detaillierten Definitionen aus Eingabe- und Ausgabeperspektiven. Dann führen wir eine umfassende Taxonomie ein, um LLM-als-Richter aus drei Dimensionen zu erkunden: was zu beurteilen ist, wie zu beurteilen ist und wo zu beurteilen ist. Schließlich stellen wir Benchmarks für die Evaluierung von LLM-als-Richter zusammen und heben Schlüsselherausforderungen und vielversprechende Richtungen hervor, um wertvolle Einblicke zu bieten und zukünftige Forschung in diesem vielversprechenden Forschungsbereich zu inspirieren. Eine Liste von Papieren und weitere Ressourcen zum Thema LLM-als-Richter finden Sie unter https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge und https://llm-as-a-judge.github.io.
English
Assessment and evaluation have long been critical challenges in artificial intelligence (AI) and natural language processing (NLP). However, traditional methods, whether matching-based or embedding-based, often fall short of judging subtle attributes and delivering satisfactory results. Recent advancements in Large Language Models (LLMs) inspire the "LLM-as-a-judge" paradigm, where LLMs are leveraged to perform scoring, ranking, or selection across various tasks and applications. This paper provides a comprehensive survey of LLM-based judgment and assessment, offering an in-depth overview to advance this emerging field. We begin by giving detailed definitions from both input and output perspectives. Then we introduce a comprehensive taxonomy to explore LLM-as-a-judge from three dimensions: what to judge, how to judge and where to judge. Finally, we compile benchmarks for evaluating LLM-as-a-judge and highlight key challenges and promising directions, aiming to provide valuable insights and inspire future research in this promising research area. Paper list and more resources about LLM-as-a-judge can be found at https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge and https://llm-as-a-judge.github.io.

Summary

AI-Generated Summary

PDF412November 26, 2024