Калибровка LLM-оценщика
Calibrating LLM-Based Evaluator
September 23, 2023
Авторы: Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
Аннотация
Последние достижения в области крупных языковых моделей (LLM) в моделировании языка и их возникающие способности делают их перспективным инструментом для оценки качества генерации естественного языка без использования эталонов, а также компетентной альтернативой человеческой оценке. Однако, ограниченные закрытым исходным кодом или высокими вычислительными требованиями для размещения и настройки, существует недостаток практики для дальнейшей калибровки готовых LLM-оценщиков с целью лучшего соответствия человеческим предпочтениям. В данной работе мы предлагаем AutoCalibrate — многоэтапный подход без использования градиентов для автоматической калибровки и согласования LLM-оценщика с человеческими предпочтениями. Вместо явного моделирования человеческих предпочтений мы сначала неявно включаем их в набор человеческих меток. Затем начальный набор критериев оценки формулируется самой языковой моделью, используя обучение в контексте на различных примерах с малым количеством данных. Для дальнейшей калибровки этого набора критериев мы выбираем лучшие варианты и переформулируем их с помощью саморефлексии. Наши эксперименты на нескольких наборах данных для оценки качества текста демонстрируют значительное улучшение корреляции с экспертной оценкой благодаря калибровке. Наш всесторонний качественный анализ предоставляет ценные интуиции и наблюдения относительно сущности эффективных критериев оценки.
English
Recent advancements in large language models (LLMs) on language modeling and
emergent capabilities make them a promising reference-free evaluator of natural
language generation quality, and a competent alternative to human evaluation.
However, hindered by the closed-source or high computational demand to host and
tune, there is a lack of practice to further calibrate an off-the-shelf
LLM-based evaluator towards better human alignment. In this work, we propose
AutoCalibrate, a multi-stage, gradient-free approach to automatically calibrate
and align an LLM-based evaluator toward human preference. Instead of explicitly
modeling human preferences, we first implicitly encompass them within a set of
human labels. Then, an initial set of scoring criteria is drafted by the
language model itself, leveraging in-context learning on different few-shot
examples. To further calibrate this set of criteria, we select the best
performers and re-draft them with self-refinement. Our experiments on multiple
text quality evaluation datasets illustrate a significant improvement in
correlation with expert evaluation through calibration. Our comprehensive
qualitative analysis conveys insightful intuitions and observations on the
essence of effective scoring criteria.