ChatPaper.aiChatPaper

Van Generatie tot Beoordeling: Kansen en Uitdagingen van LLM-als-een-rechter

From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

November 25, 2024
Auteurs: Dawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu
cs.AI

Samenvatting

Beoordeling en evaluatie zijn al lange tijd kritieke uitdagingen in kunstmatige intelligentie (AI) en natuurlijke taalverwerking (NLP). Echter, traditionele methoden, of ze nu op matching gebaseerd zijn of op embedding, schieten vaak tekort bij het beoordelen van subtiele kenmerken en het leveren van bevredigende resultaten. Recente ontwikkelingen in Grote Taalmodellen (LLM's) inspireren het "LLM-als-beoordelaar" paradigma, waar LLM's worden ingezet om scoring, rangschikking of selectie uit te voeren over verschillende taken en toepassingen. Dit artikel biedt een uitgebreid overzicht van op LLM's gebaseerde beoordeling en beoordeling, met een diepgaand overzicht om dit opkomende vakgebied verder te brengen. We beginnen met gedetailleerde definities vanuit zowel input- als outputperspectieven. Vervolgens introduceren we een uitgebreide taxonomie om LLM-als-beoordelaar te verkennen vanuit drie dimensies: wat te beoordelen, hoe te beoordelen en waar te beoordelen. Tot slot stellen we benchmarks samen voor het evalueren van LLM-als-beoordelaar en benadrukken we belangrijke uitdagingen en veelbelovende richtingen, met als doel waardevolle inzichten te bieden en toekomstig onderzoek in dit veelbelovende onderzoeksgebied te inspireren. Een lijst met artikelen en meer informatie over LLM-als-beoordelaar is te vinden op https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge en https://llm-as-a-judge.github.io.
English
Assessment and evaluation have long been critical challenges in artificial intelligence (AI) and natural language processing (NLP). However, traditional methods, whether matching-based or embedding-based, often fall short of judging subtle attributes and delivering satisfactory results. Recent advancements in Large Language Models (LLMs) inspire the "LLM-as-a-judge" paradigm, where LLMs are leveraged to perform scoring, ranking, or selection across various tasks and applications. This paper provides a comprehensive survey of LLM-based judgment and assessment, offering an in-depth overview to advance this emerging field. We begin by giving detailed definitions from both input and output perspectives. Then we introduce a comprehensive taxonomy to explore LLM-as-a-judge from three dimensions: what to judge, how to judge and where to judge. Finally, we compile benchmarks for evaluating LLM-as-a-judge and highlight key challenges and promising directions, aiming to provide valuable insights and inspire future research in this promising research area. Paper list and more resources about LLM-as-a-judge can be found at https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge and https://llm-as-a-judge.github.io.

Summary

AI-Generated Summary

PDF412November 26, 2024