Optimisation itérative de la fonction de valeur pour le décodage guidé
Iterative Value Function Optimization for Guided Decoding
March 4, 2025
Auteurs: Zhenhua Liu, Lijun Li, Ruizhe Chen, Yuxian Jiang, Tong Zhu, Wenliang Chen, Jing Shao
cs.AI
Résumé
Bien que l'apprentissage par renforcement à partir de retours humains (RLHF) soit devenu la méthode prédominante pour contrôler les sorties des modèles de langage, il souffre de coûts de calcul élevés et d'une instabilité lors de l'entraînement. Le décodage guidé, en particulier les méthodes guidées par la valeur, offre une alternative économique en contrôlant les sorties sans nécessiter de ré-entraînement des modèles. Cependant, la précision de la fonction de valeur est cruciale pour le décodage guidé par la valeur, car des imprécisions peuvent entraîner une prise de décision sous-optimale et une dégradation des performances. Les méthodes existantes peinent à estimer avec précision la fonction de valeur optimale, ce qui conduit à un contrôle moins efficace. Nous proposons l'Optimisation Itérative de la Fonction de Valeur, un cadre novateur qui surmonte ces limitations grâce à deux composants clés : l'Estimation de Valeur par Monte Carlo, qui réduit la variance d'estimation en explorant des trajectoires diverses, et l'Optimisation Itérative sur Politique, qui améliore progressivement l'estimation de la valeur en collectant des trajectoires à partir de politiques guidées par la valeur. Des expériences approfondies sur la synthèse de texte, les dialogues multi-tours et le suivi d'instructions démontrent l'efficacité des approches de décodage guidé par la valeur pour aligner les modèles de langage. Ces approches non seulement atteignent l'alignement, mais réduisent également de manière significative les coûts de calcul en exploitant une optimisation rigoureuse de la fonction de valeur pour un contrôle efficace et efficient.
English
While Reinforcement Learning from Human Feedback (RLHF) has become the
predominant method for controlling language model outputs, it suffers from high
computational costs and training instability. Guided decoding, especially
value-guided methods, offers a cost-effective alternative by controlling
outputs without re-training models. However, the accuracy of the value function
is crucial for value-guided decoding, as inaccuracies can lead to suboptimal
decision-making and degraded performance. Existing methods struggle with
accurately estimating the optimal value function, leading to less effective
control. We propose Iterative Value Function Optimization, a novel framework
that addresses these limitations through two key components: Monte Carlo Value
Estimation, which reduces estimation variance by exploring diverse
trajectories, and Iterative On-Policy Optimization, which progressively
improves value estimation through collecting trajectories from value-guided
policies. Extensive experiments on text summarization, multi-turn dialogue, and
instruction following demonstrate the effectiveness of value-guided decoding
approaches in aligning language models. These approaches not only achieve
alignment but also significantly reduce computational costs by leveraging
principled value function optimization for efficient and effective control.Summary
AI-Generated Summary