ChatPaper.aiChatPaper

Iteratieve Optimalisatie van Waardefuncties voor Begeleid Decoderen

Iterative Value Function Optimization for Guided Decoding

March 4, 2025
Auteurs: Zhenhua Liu, Lijun Li, Ruizhe Chen, Yuxian Jiang, Tong Zhu, Wenliang Chen, Jing Shao
cs.AI

Samenvatting

Hoewel Reinforcement Learning from Human Feedback (RLHF) de dominante methode is geworden voor het beheersen van taalmodeluitvoer, lijdt het onder hoge computationele kosten en trainingsinstabiliteit. Gestuurd decoderen, met name waardegestuurde methoden, biedt een kosteneffectief alternatief door uitvoer te beheersen zonder modellen opnieuw te trainen. De nauwkeurigheid van de waardefunctie is echter cruciaal voor waardegestuurd decoderen, aangezien onnauwkeurigheden kunnen leiden tot suboptimale besluitvorming en verminderde prestaties. Bestaande methoden worstelen met het nauwkeurig schatten van de optimale waardefunctie, wat resulteert in minder effectieve controle. Wij stellen Iteratieve Waardefunctieoptimalisatie voor, een nieuw raamwerk dat deze beperkingen aanpakt via twee sleutelcomponenten: Monte Carlo Waardeschatting, die de schattingsvariantie vermindert door diverse trajecten te verkennen, en Iteratieve On-Policy Optimalisatie, die de waardeschatting geleidelijk verbetert door trajecten te verzamelen van waardegestuurde beleidsregels. Uitgebreide experimenten op het gebied van tekstsamenvatting, meerzijdige dialoog en instructieopvolging demonstreren de effectiviteit van waardegestuurde decodeerbenaderingen bij het afstemmen van taalmodellen. Deze benaderingen bereiken niet alleen afstemming, maar verminderen ook aanzienlijk de computationele kosten door gebruik te maken van principiële waardefunctieoptimalisatie voor efficiënte en effectieve controle.
English
While Reinforcement Learning from Human Feedback (RLHF) has become the predominant method for controlling language model outputs, it suffers from high computational costs and training instability. Guided decoding, especially value-guided methods, offers a cost-effective alternative by controlling outputs without re-training models. However, the accuracy of the value function is crucial for value-guided decoding, as inaccuracies can lead to suboptimal decision-making and degraded performance. Existing methods struggle with accurately estimating the optimal value function, leading to less effective control. We propose Iterative Value Function Optimization, a novel framework that addresses these limitations through two key components: Monte Carlo Value Estimation, which reduces estimation variance by exploring diverse trajectories, and Iterative On-Policy Optimization, which progressively improves value estimation through collecting trajectories from value-guided policies. Extensive experiments on text summarization, multi-turn dialogue, and instruction following demonstrate the effectiveness of value-guided decoding approaches in aligning language models. These approaches not only achieve alignment but also significantly reduce computational costs by leveraging principled value function optimization for efficient and effective control.

Summary

AI-Generated Summary

PDF152March 5, 2025