ChatPaper.aiChatPaper

De la génération au jugement : opportunités et défis de LLM en tant que juge

From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

November 25, 2024
Auteurs: Dawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu
cs.AI

Résumé

L'évaluation et l'analyse ont longtemps été des défis critiques en intelligence artificielle (IA) et en traitement du langage naturel (NLP). Cependant, les méthodes traditionnelles, qu'elles soient basées sur la correspondance ou sur l'incorporation, peinent souvent à évaluer des attributs subtils et à fournir des résultats satisfaisants. Les récentes avancées dans les Modèles de Langage de Grande Taille (LLMs) inspirent le paradigme "LLM-comme-juge", où les LLMs sont exploités pour effectuer des évaluations, des classements ou des sélections dans diverses tâches et applications. Cet article propose une étude complète de l'évaluation et de l'analyse basées sur les LLMs, offrant un aperçu approfondi pour faire progresser ce domaine émergent. Nous commençons par donner des définitions détaillées des perspectives d'entrée et de sortie. Ensuite, nous introduisons une taxonomie complète pour explorer le "LLM-comme-juge" selon trois dimensions : quoi évaluer, comment évaluer et où évaluer. Enfin, nous compilons des références pour évaluer le "LLM-comme-juge" et mettons en lumière les principaux défis et les orientations prometteuses, dans le but de fournir des perspectives précieuses et d'inspirer de futures recherches dans ce domaine de recherche prometteur. La liste des articles et plus de ressources sur le "LLM-comme-juge" peuvent être trouvées sur https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge et https://llm-as-a-judge.github.io.
English
Assessment and evaluation have long been critical challenges in artificial intelligence (AI) and natural language processing (NLP). However, traditional methods, whether matching-based or embedding-based, often fall short of judging subtle attributes and delivering satisfactory results. Recent advancements in Large Language Models (LLMs) inspire the "LLM-as-a-judge" paradigm, where LLMs are leveraged to perform scoring, ranking, or selection across various tasks and applications. This paper provides a comprehensive survey of LLM-based judgment and assessment, offering an in-depth overview to advance this emerging field. We begin by giving detailed definitions from both input and output perspectives. Then we introduce a comprehensive taxonomy to explore LLM-as-a-judge from three dimensions: what to judge, how to judge and where to judge. Finally, we compile benchmarks for evaluating LLM-as-a-judge and highlight key challenges and promising directions, aiming to provide valuable insights and inspire future research in this promising research area. Paper list and more resources about LLM-as-a-judge can be found at https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge and https://llm-as-a-judge.github.io.

Summary

AI-Generated Summary

PDF412November 26, 2024