JudgeLM: Тонко настроенные большие языковые модели как масштабируемые судьи
JudgeLM: Fine-tuned Large Language Models are Scalable Judges
October 26, 2023
Авторы: Lianghui Zhu, Xinggang Wang, Xinlong Wang
cs.AI
Аннотация
Оценка больших языковых моделей (LLM) в открытых сценариях представляет сложность, поскольку существующие бенчмарки и метрики не могут их измерить всесторонне. Для решения этой проблемы мы предлагаем донастраивать LLM в качестве масштабируемых судей (JudgeLM) для эффективной и качественной оценки LLM в открытых бенчмарках. Сначала мы создаем всеобъемлющий, крупномасштабный, высококачественный набор данных, содержащий исходные задачи, ответы, сгенерированные LLM, и оценки, сгенерированные GPT-4, для донастройки высокопроизводительных судей, а также новый бенчмарк для оценки самих судей. Мы обучаем JudgeLM в различных масштабах — от 7B, 13B до 33B параметров — и проводим систематический анализ его возможностей и поведения. Затем мы анализируем ключевые смещения при донастройке LLM в качестве судьи, выделяя позиционное смещение, смещение знаний и формальное смещение. Для устранения этих проблем JudgeLM внедряет набор техник, включая аугментацию с заменой, поддержку ссылок и исключение ссылок, что значительно улучшает производительность судьи. JudgeLM достигает наилучших результатов в качестве судьи как на существующем бенчмарке PandaLM, так и на нашем новом предложенном бенчмарке. Наш JudgeLM эффективен: JudgeLM-7B требуется всего 3 минуты для оценки 5 тыс. образцов с использованием 8 GPU A100. JudgeLM демонстрирует высокое согласие с судьей-учителем, достигая согласия более 90%, что даже превосходит согласие между людьми. JudgeLM также демонстрирует расширенные возможности в качестве судьи для одиночных ответов, мультимодальных моделей, множественных ответов и многоходового чата.
English
Evaluating Large Language Models (LLMs) in open-ended scenarios is
challenging because existing benchmarks and metrics can not measure them
comprehensively. To address this problem, we propose to fine-tune LLMs as
scalable judges (JudgeLM) to evaluate LLMs efficiently and effectively in
open-ended benchmarks. We first propose a comprehensive, large-scale,
high-quality dataset containing task seeds, LLMs-generated answers, and
GPT-4-generated judgments for fine-tuning high-performance judges, as well as a
new benchmark for evaluating the judges. We train JudgeLM at different scales
from 7B, 13B, to 33B parameters, and conduct a systematic analysis of its
capabilities and behaviors. We then analyze the key biases in fine-tuning LLM
as a judge and consider them as position bias, knowledge bias, and format bias.
To address these issues, JudgeLM introduces a bag of techniques including swap
augmentation, reference support, and reference drop, which clearly enhance the
judge's performance. JudgeLM obtains the state-of-the-art judge performance on
both the existing PandaLM benchmark and our proposed new benchmark. Our JudgeLM
is efficient and the JudgeLM-7B only needs 3 minutes to judge 5K samples with 8
A100 GPUs. JudgeLM obtains high agreement with the teacher judge, achieving an
agreement exceeding 90% that even surpasses human-to-human agreement. JudgeLM
also demonstrates extended capabilities in being judges of the single answer,
multimodal models, multiple answers, and multi-turn chat.