Domare la sovrastima nei LLM: Calibrazione delle Ricompense in RLHF

Abstract

La calibrazione del modello linguistico si riferisce all'allineamento tra la fiducia del modello e le effettive prestazioni delle sue risposte. Mentre studi precedenti evidenziano il fenomeno della sovrafiducia nei Grandi Modelli Linguistici (LLM) e mostrano che i LLM addestrati con Apprendimento per Rinforzo da Feedback Umano (RLHF) sono sovrafiduciosi con una probabilità di output più accentuata, in questo studio riveliamo che RLHF tende a portare i modelli a esprimere una sovrafiducia verbalizzata nelle proprie risposte. Indaghiamo la causa sottostante di questa sovrafiducia e dimostriamo che i modelli di ricompensa utilizzati per l'ottimizzazione delle politiche prossimali (PPO) mostrano dei pregiudizi intrinseci verso punteggi ad alta fiducia indipendentemente dalla qualità effettiva delle risposte. Basandoci su questa intuizione, proponiamo due varianti di PPO: PPO-M: PPO con Modellazione della Ricompensa Calibrata e PPO-C: PPO con Calcolo della Ricompensa Calibrato. PPO-M integra punteggi di fiducia espliciti nell'addestramento del modello di ricompensa, il che calibra i modelli di ricompensa per catturare meglio l'allineamento tra la qualità della risposta e la fiducia verbalizzata. PPO-C regola il punteggio di ricompensa durante PPO in base alla differenza tra la ricompensa attuale e la media mobile delle ricompense passate. Entrambi PPO-M e PPO-C possono essere integrati senza problemi nel flusso di lavoro attuale di PPO e non richiedono etichette d'oro aggiuntive. Valutiamo i nostri metodi sia su Llama3-8B che su Mistral-7B su sei set di dati diversi, inclusi generazione a scelta multipla e aperta. I risultati sperimentali dimostrano che entrambi i nostri metodi possono ridurre l'errore di calibrazione e mantenere prestazioni paragonabili a PPO standard. Mostriamo inoltre che non compromettono le capacità del modello in contesti di conversazione aperta.

English

Language model calibration refers to the alignment between the confidence of the model and the actual performance of its responses. While previous studies point out the overconfidence phenomenon in Large Language Models (LLMs) and show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF) are overconfident with a more sharpened output probability, in this study, we reveal that RLHF tends to lead models to express verbalized overconfidence in their own responses. We investigate the underlying cause of this overconfidence and demonstrate that reward models used for Proximal Policy Optimization (PPO) exhibit inherent biases towards high-confidence scores regardless of the actual quality of responses. Building upon this insight, we propose two PPO variants: PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated Reward Calculation. PPO-M integrates explicit confidence scores in reward model training, which calibrates reward models to better capture the alignment between response quality and verbalized confidence. PPO-C adjusts the reward score during PPO based on the difference between the current reward and the moving average of past rewards. Both PPO-M and PPO-C can be seamlessly integrated into the current PPO pipeline and do not require additional golden labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six diverse datasets including multiple-choice and open-ended generation. Experiment results demonstrate that both of our methods can reduce calibration error and maintain performance comparable to standard PPO. We further show that they do not compromise model capabilities in open-ended conversation settings.

Domare la sovrastima nei LLM: Calibrazione delle Ricompense in RLHF

Taming Overconfidence in LLMs: Reward Calibration in RLHF

Abstract

Summary

Support

Support