ガイド付きデコーディングのための反復的価値関数最適化
Iterative Value Function Optimization for Guided Decoding
March 4, 2025
著者: Zhenhua Liu, Lijun Li, Ruizhe Chen, Yuxian Jiang, Tong Zhu, Wenliang Chen, Jing Shao
cs.AI
要旨
人間のフィードバックによる強化学習(RLHF)は言語モデルの出力を制御する主要な手法となっているが、高い計算コストと訓練の不安定性という課題を抱えている。ガイド付きデコード、特に価値誘導型の手法は、モデルの再訓練なしに出力を制御するコスト効率の良い代替手段を提供する。しかし、価値誘導型デコードにおいては価値関数の精度が重要であり、不正確な場合には最適でない意思決定や性能の低下を招く可能性がある。既存の手法では最適な価値関数を正確に推定することが難しく、効果的な制御が実現されていない。本研究では、これらの課題を解決する新しいフレームワーク「反復的価値関数最適化」を提案する。このフレームワークは、多様な軌跡を探索することで推定の分散を低減するモンテカルロ価値推定と、価値誘導型ポリシーから軌跡を収集することで価値推定を段階的に改善する反復的オンライン最適化の2つの主要な要素で構成されている。テキスト要約、多ターン対話、指示追従タスクにおける広範な実験を通じて、価値誘導型デコード手法が言語モデルのアライメントにおいて有効であることを実証した。これらの手法はアライメントを達成するだけでなく、原理に基づいた価値関数最適化を活用することで計算コストを大幅に削減し、効率的かつ効果的な制御を実現している。
English
While Reinforcement Learning from Human Feedback (RLHF) has become the
predominant method for controlling language model outputs, it suffers from high
computational costs and training instability. Guided decoding, especially
value-guided methods, offers a cost-effective alternative by controlling
outputs without re-training models. However, the accuracy of the value function
is crucial for value-guided decoding, as inaccuracies can lead to suboptimal
decision-making and degraded performance. Existing methods struggle with
accurately estimating the optimal value function, leading to less effective
control. We propose Iterative Value Function Optimization, a novel framework
that addresses these limitations through two key components: Monte Carlo Value
Estimation, which reduces estimation variance by exploring diverse
trajectories, and Iterative On-Policy Optimization, which progressively
improves value estimation through collecting trajectories from value-guided
policies. Extensive experiments on text summarization, multi-turn dialogue, and
instruction following demonstrate the effectiveness of value-guided decoding
approaches in aligning language models. These approaches not only achieve
alignment but also significantly reduce computational costs by leveraging
principled value function optimization for efficient and effective control.Summary
AI-Generated Summary