Domando la Sobreconfianza en LLMs: Calibración de Recompensas en RLHF
Taming Overconfidence in LLMs: Reward Calibration in RLHF
October 13, 2024
Autores: Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang
cs.AI
Resumen
La calibración del modelo de lenguaje se refiere a la alineación entre la confianza del modelo y el rendimiento real de sus respuestas. Mientras que estudios previos señalan el fenómeno de sobreconfianza en los Modelos de Lenguaje Grandes (LLMs) y muestran que los LLMs entrenados con Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) son sobreconfiados con una probabilidad de salida más afilada, en este estudio revelamos que RLHF tiende a llevar a los modelos a expresar sobreconfianza verbalizada en sus propias respuestas. Investigamos la causa subyacente de esta sobreconfianza y demostramos que los modelos de recompensa utilizados para la Optimización de Políticas Proximales (PPO) exhiben sesgos inherentes hacia puntuaciones de alta confianza independientemente de la calidad real de las respuestas. Basándonos en esta percepción, proponemos dos variantes de PPO: PPO-M: PPO con Modelado de Recompensa Calibrado y PPO-C: PPO con Cálculo de Recompensa Calibrado. PPO-M integra puntuaciones de confianza explícitas en el entrenamiento del modelo de recompensa, lo que calibra los modelos de recompensa para capturar mejor la alineación entre la calidad de la respuesta y la confianza verbalizada. PPO-C ajusta la puntuación de recompensa durante PPO basándose en la diferencia entre la recompensa actual y el promedio móvil de recompensas pasadas. Tanto PPO-M como PPO-C pueden integrarse fácilmente en el actual proceso de PPO y no requieren etiquetas doradas adicionales. Evaluamos nuestros métodos en Llama3-8B y Mistral-7B en seis conjuntos de datos diversos que incluyen generación de opción múltiple y abierta. Los resultados experimentales demuestran que ambos métodos pueden reducir el error de calibración y mantener un rendimiento comparable al PPO estándar. Además, mostramos que no comprometen las capacidades del modelo en entornos de conversación abierta.
English
Language model calibration refers to the alignment between the confidence of
the model and the actual performance of its responses. While previous studies
point out the overconfidence phenomenon in Large Language Models (LLMs) and
show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF)
are overconfident with a more sharpened output probability, in this study, we
reveal that RLHF tends to lead models to express verbalized overconfidence in
their own responses. We investigate the underlying cause of this overconfidence
and demonstrate that reward models used for Proximal Policy Optimization (PPO)
exhibit inherent biases towards high-confidence scores regardless of the actual
quality of responses. Building upon this insight, we propose two PPO variants:
PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated
Reward Calculation. PPO-M integrates explicit confidence scores in reward model
training, which calibrates reward models to better capture the alignment
between response quality and verbalized confidence. PPO-C adjusts the reward
score during PPO based on the difference between the current reward and the
moving average of past rewards. Both PPO-M and PPO-C can be seamlessly
integrated into the current PPO pipeline and do not require additional golden
labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six
diverse datasets including multiple-choice and open-ended generation.
Experiment results demonstrate that both of our methods can reduce calibration
error and maintain performance comparable to standard PPO. We further show that
they do not compromise model capabilities in open-ended conversation settings.Summary
AI-Generated Summary