Calibrando o Avaliador Baseado em LLM
Calibrating LLM-Based Evaluator
September 23, 2023
Autores: Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
Resumo
Avanços recentes em modelos de linguagem de grande escala (LLMs) na modelagem de linguagem e em capacidades emergentes os tornam um avaliador promissor e sem referência da qualidade da geração de linguagem natural, além de uma alternativa competente à avaliação humana. No entanto, limitados pelo fato de serem de código fechado ou pela alta demanda computacional necessária para hospedá-los e ajustá-los, há uma falta de práticas para calibrar ainda mais um avaliador baseado em LLM pré-treinado para um melhor alinhamento com a avaliação humana. Neste trabalho, propomos o AutoCalibrate, uma abordagem multifásica e livre de gradientes para calibrar e alinhar automaticamente um avaliador baseado em LLM com as preferências humanas. Em vez de modelar explicitamente as preferências humanas, primeiro as abrangemos implicitamente em um conjunto de rótulos humanos. Em seguida, um conjunto inicial de critérios de pontuação é elaborado pelo próprio modelo de linguagem, aproveitando o aprendizado em contexto com diferentes exemplos de poucos disparos. Para calibrar ainda mais esse conjunto de critérios, selecionamos os melhores desempenhos e os reformulamos com autorrefinamento. Nossos experimentos em múltiplos conjuntos de dados de avaliação de qualidade de texto ilustram uma melhoria significativa na correlação com a avaliação de especialistas por meio da calibração. Nossa análise qualitativa abrangente transmite intuições e observações perspicazes sobre a essência de critérios de pontuação eficazes.
English
Recent advancements in large language models (LLMs) on language modeling and
emergent capabilities make them a promising reference-free evaluator of natural
language generation quality, and a competent alternative to human evaluation.
However, hindered by the closed-source or high computational demand to host and
tune, there is a lack of practice to further calibrate an off-the-shelf
LLM-based evaluator towards better human alignment. In this work, we propose
AutoCalibrate, a multi-stage, gradient-free approach to automatically calibrate
and align an LLM-based evaluator toward human preference. Instead of explicitly
modeling human preferences, we first implicitly encompass them within a set of
human labels. Then, an initial set of scoring criteria is drafted by the
language model itself, leveraging in-context learning on different few-shot
examples. To further calibrate this set of criteria, we select the best
performers and re-draft them with self-refinement. Our experiments on multiple
text quality evaluation datasets illustrate a significant improvement in
correlation with expert evaluation through calibration. Our comprehensive
qualitative analysis conveys insightful intuitions and observations on the
essence of effective scoring criteria.