ChatPaper.aiChatPaper

De la Generación al Juicio: Oportunidades y Desafíos de LLM-como-juez

From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

November 25, 2024
Autores: Dawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu
cs.AI

Resumen

La evaluación y valoración han sido desafíos críticos en la inteligencia artificial (IA) y el procesamiento del lenguaje natural (PLN) desde hace mucho tiempo. Sin embargo, los métodos tradicionales, ya sean basados en coincidencias o en incrustaciones, a menudo no logran juzgar atributos sutiles y ofrecer resultados satisfactorios. Los avances recientes en Modelos de Lenguaje Grandes (LLMs) inspiran el paradigma "LLM-como-juez", donde los LLMs se utilizan para realizar puntuaciones, clasificaciones o selecciones en diversas tareas y aplicaciones. Este documento proporciona una encuesta exhaustiva sobre la valoración y juicio basados en LLM, ofreciendo una visión general detallada para avanzar en este campo emergente. Comenzamos dando definiciones detalladas desde perspectivas de entrada y salida. Luego presentamos una taxonomía integral para explorar el LLM-como-juez desde tres dimensiones: qué juzgar, cómo juzgar y dónde juzgar. Finalmente, recopilamos puntos de referencia para evaluar el LLM-como-juez y destacamos los desafíos clave y las direcciones prometedoras, con el objetivo de proporcionar ideas valiosas e inspirar futuras investigaciones en esta área de investigación prometedora. Se puede encontrar una lista de artículos y más recursos sobre LLM-como-juez en https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge y https://llm-as-a-judge.github.io.
English
Assessment and evaluation have long been critical challenges in artificial intelligence (AI) and natural language processing (NLP). However, traditional methods, whether matching-based or embedding-based, often fall short of judging subtle attributes and delivering satisfactory results. Recent advancements in Large Language Models (LLMs) inspire the "LLM-as-a-judge" paradigm, where LLMs are leveraged to perform scoring, ranking, or selection across various tasks and applications. This paper provides a comprehensive survey of LLM-based judgment and assessment, offering an in-depth overview to advance this emerging field. We begin by giving detailed definitions from both input and output perspectives. Then we introduce a comprehensive taxonomy to explore LLM-as-a-judge from three dimensions: what to judge, how to judge and where to judge. Finally, we compile benchmarks for evaluating LLM-as-a-judge and highlight key challenges and promising directions, aiming to provide valuable insights and inspire future research in this promising research area. Paper list and more resources about LLM-as-a-judge can be found at https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge and https://llm-as-a-judge.github.io.

Summary

AI-Generated Summary

PDF412November 26, 2024