Domare la sovrastima nei LLM: Calibrazione delle Ricompense in RLHF
Taming Overconfidence in LLMs: Reward Calibration in RLHF
October 13, 2024
Autori: Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang
cs.AI
Abstract
La calibrazione del modello linguistico si riferisce all'allineamento tra la fiducia del modello e le effettive prestazioni delle sue risposte. Mentre studi precedenti evidenziano il fenomeno della sovrafiducia nei Grandi Modelli Linguistici (LLM) e mostrano che i LLM addestrati con Apprendimento per Rinforzo da Feedback Umano (RLHF) sono sovrafiduciosi con una probabilità di output più accentuata, in questo studio riveliamo che RLHF tende a portare i modelli a esprimere una sovrafiducia verbalizzata nelle proprie risposte. Indaghiamo la causa sottostante di questa sovrafiducia e dimostriamo che i modelli di ricompensa utilizzati per l'ottimizzazione delle politiche prossimali (PPO) mostrano dei pregiudizi intrinseci verso punteggi ad alta fiducia indipendentemente dalla qualità effettiva delle risposte. Basandoci su questa intuizione, proponiamo due varianti di PPO: PPO-M: PPO con Modellazione della Ricompensa Calibrata e PPO-C: PPO con Calcolo della Ricompensa Calibrato. PPO-M integra punteggi di fiducia espliciti nell'addestramento del modello di ricompensa, il che calibra i modelli di ricompensa per catturare meglio l'allineamento tra la qualità della risposta e la fiducia verbalizzata. PPO-C regola il punteggio di ricompensa durante PPO in base alla differenza tra la ricompensa attuale e la media mobile delle ricompense passate. Entrambi PPO-M e PPO-C possono essere integrati senza problemi nel flusso di lavoro attuale di PPO e non richiedono etichette d'oro aggiuntive. Valutiamo i nostri metodi sia su Llama3-8B che su Mistral-7B su sei set di dati diversi, inclusi generazione a scelta multipla e aperta. I risultati sperimentali dimostrano che entrambi i nostri metodi possono ridurre l'errore di calibrazione e mantenere prestazioni paragonabili a PPO standard. Mostriamo inoltre che non compromettono le capacità del modello in contesti di conversazione aperta.
English
Language model calibration refers to the alignment between the confidence of
the model and the actual performance of its responses. While previous studies
point out the overconfidence phenomenon in Large Language Models (LLMs) and
show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF)
are overconfident with a more sharpened output probability, in this study, we
reveal that RLHF tends to lead models to express verbalized overconfidence in
their own responses. We investigate the underlying cause of this overconfidence
and demonstrate that reward models used for Proximal Policy Optimization (PPO)
exhibit inherent biases towards high-confidence scores regardless of the actual
quality of responses. Building upon this insight, we propose two PPO variants:
PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated
Reward Calculation. PPO-M integrates explicit confidence scores in reward model
training, which calibrates reward models to better capture the alignment
between response quality and verbalized confidence. PPO-C adjusts the reward
score during PPO based on the difference between the current reward and the
moving average of past rewards. Both PPO-M and PPO-C can be seamlessly
integrated into the current PPO pipeline and do not require additional golden
labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six
diverse datasets including multiple-choice and open-ended generation.
Experiment results demonstrate that both of our methods can reduce calibration
error and maintain performance comparable to standard PPO. We further show that
they do not compromise model capabilities in open-ended conversation settings.Summary
AI-Generated Summary