Calibración del Evaluador Basado en Modelos de Lenguaje de Gran Escala (LLM)
Calibrating LLM-Based Evaluator
September 23, 2023
Autores: Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en cuanto a modelado del lenguaje y capacidades emergentes los posicionan como evaluadores prometedores de la calidad de la generación de lenguaje natural sin necesidad de referencias, y como una alternativa competente a la evaluación humana. Sin embargo, debido a su naturaleza de código cerrado o a la alta demanda computacional requerida para alojarlos y ajustarlos, existe una falta de prácticas para calibrar aún más un evaluador basado en LLMs listo para usar, con el fin de lograr una mejor alineación con las preferencias humanas. En este trabajo, proponemos AutoCalibrate, un enfoque multi-etapa y libre de gradientes para calibrar y alinear automáticamente un evaluador basado en LLMs hacia las preferencias humanas. En lugar de modelar explícitamente las preferencias humanas, primero las englobamos implícitamente dentro de un conjunto de etiquetas humanas. Luego, un conjunto inicial de criterios de puntuación es redactado por el propio modelo de lenguaje, aprovechando el aprendizaje en contexto (in-context learning) con diferentes ejemplos de pocas muestras (few-shot). Para calibrar aún más este conjunto de criterios, seleccionamos los mejores desempeños y los redactamos nuevamente mediante auto-refinamiento. Nuestros experimentos en múltiples conjuntos de datos de evaluación de calidad de texto muestran una mejora significativa en la correlación con la evaluación experta a través de la calibración. Nuestro análisis cualitativo exhaustivo ofrece intuiciones y observaciones perspicaces sobre la esencia de los criterios de puntuación efectivos.
English
Recent advancements in large language models (LLMs) on language modeling and
emergent capabilities make them a promising reference-free evaluator of natural
language generation quality, and a competent alternative to human evaluation.
However, hindered by the closed-source or high computational demand to host and
tune, there is a lack of practice to further calibrate an off-the-shelf
LLM-based evaluator towards better human alignment. In this work, we propose
AutoCalibrate, a multi-stage, gradient-free approach to automatically calibrate
and align an LLM-based evaluator toward human preference. Instead of explicitly
modeling human preferences, we first implicitly encompass them within a set of
human labels. Then, an initial set of scoring criteria is drafted by the
language model itself, leveraging in-context learning on different few-shot
examples. To further calibrate this set of criteria, we select the best
performers and re-draft them with self-refinement. Our experiments on multiple
text quality evaluation datasets illustrate a significant improvement in
correlation with expert evaluation through calibration. Our comprehensive
qualitative analysis conveys insightful intuitions and observations on the
essence of effective scoring criteria.