JuStRank: Оценка судей LLM для ранжирования систем.
JuStRank: Benchmarking LLM Judges for System Ranking
December 12, 2024
Авторы: Ariel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai
cs.AI
Аннотация
С учетом быстрого прогресса генеративного искусственного интеллекта существует настоятельная необходимость систематического сравнения и выбора между многочисленными моделями и конфигурациями, доступными на рынке. Масштаб и универсальность таких оценок делают использование судей на основе LLM привлекательным решением для данной проблемы. Критически важно, чтобы этот подход сначала подтвердил качество самого судьи LLM. Предыдущие исследования сосредоточились на оценке судей LLM на основе экземпляров, где судья оценивается по набору ответов или пар ответов, не принимая во внимание их исходные системы. Мы считаем, что такой подход упускает важные факторы, влияющие на ранжирование на уровне системы, такие как положительное или отрицательное отношение судьи к определенным системам. Для устранения этого пробела мы проводим первое крупномасштабное исследование судей LLM в качестве ранжировщиков систем. Оценки систем формируются путем агрегирования оценок судейства по множеству выходных данных систем, и качество судьи оценивается путем сравнения полученного ранжирования систем с ранжированием на основе человеческого вмешательства. Помимо общей оценки судьи, наш анализ предоставляет детальную характеристику поведения судьи, включая их решительность и предвзятость.
English
Given the rapid progress of generative AI, there is a pressing need to
systematically compare and choose between the numerous models and
configurations available. The scale and versatility of such evaluations make
the use of LLM-based judges a compelling solution for this challenge.
Crucially, this approach requires first to validate the quality of the LLM
judge itself. Previous work has focused on instance-based assessment of LLM
judges, where a judge is evaluated over a set of responses, or response pairs,
while being agnostic to their source systems. We argue that this setting
overlooks critical factors affecting system-level ranking, such as a judge's
positive or negative bias towards certain systems. To address this gap, we
conduct the first large-scale study of LLM judges as system rankers. System
scores are generated by aggregating judgment scores over multiple system
outputs, and the judge's quality is assessed by comparing the resulting system
ranking to a human-based ranking. Beyond overall judge assessment, our analysis
provides a fine-grained characterization of judge behavior, including their
decisiveness and bias.Summary
AI-Generated Summary