ChatPaper.aiChatPaper

От Генерации к Суждению: Возможности и Вызовы LLM-в-качестве-судьи

From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

November 25, 2024
Авторы: Dawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu
cs.AI

Аннотация

Оценка и оценка давно являются критическими вызовами в искусственном интеллекте (ИИ) и обработке естественного языка (NLP). Однако традиционные методы, будь то на основе сопоставления или вложений, часто не способны оценить тонкие атрибуты и обеспечить удовлетворительные результаты. Недавние достижения в области больших языковых моделей (LLM) вдохновляют парадигму "LLM-как-судья", где LLM используются для выполнения оценки, ранжирования или выбора по различным задачам и приложениям. В данной статье представлен обширный обзор оценки и судейства на основе LLM, предлагая глубокий обзор для развития этой развивающейся области. Мы начинаем с подробных определений с точки зрения как ввода, так и вывода. Затем мы представляем обширную таксономию для изучения LLM-как-судья с трех измерений: что судить, как судить и где судить. Наконец, мы составляем бенчмарки для оценки LLM-как-судья и выделяем основные вызовы и перспективные направления, с целью предоставить ценные идеи и вдохновить будущие исследования в этой перспективной области. Список статей и дополнительные ресурсы о LLM-как-судья можно найти на https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge и https://llm-as-a-judge.github.io.
English
Assessment and evaluation have long been critical challenges in artificial intelligence (AI) and natural language processing (NLP). However, traditional methods, whether matching-based or embedding-based, often fall short of judging subtle attributes and delivering satisfactory results. Recent advancements in Large Language Models (LLMs) inspire the "LLM-as-a-judge" paradigm, where LLMs are leveraged to perform scoring, ranking, or selection across various tasks and applications. This paper provides a comprehensive survey of LLM-based judgment and assessment, offering an in-depth overview to advance this emerging field. We begin by giving detailed definitions from both input and output perspectives. Then we introduce a comprehensive taxonomy to explore LLM-as-a-judge from three dimensions: what to judge, how to judge and where to judge. Finally, we compile benchmarks for evaluating LLM-as-a-judge and highlight key challenges and promising directions, aiming to provide valuable insights and inspire future research in this promising research area. Paper list and more resources about LLM-as-a-judge can be found at https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge and https://llm-as-a-judge.github.io.

Summary

AI-Generated Summary

PDF412November 26, 2024