ChatPaper.aiChatPaper

Ottimizzazione Iterativa della Funzione Valore per il Decodific Guidato

Iterative Value Function Optimization for Guided Decoding

March 4, 2025
Autori: Zhenhua Liu, Lijun Li, Ruizhe Chen, Yuxian Jiang, Tong Zhu, Wenliang Chen, Jing Shao
cs.AI

Abstract

Mentre l'Apprendimento per Rinforzo con Feedback Umano (RLHF) è diventato il metodo predominante per controllare gli output dei modelli linguistici, soffre di elevati costi computazionali e instabilità durante l'addestramento. Il decoding guidato, in particolare i metodi basati su valori, offre un'alternativa economicamente vantaggiosa controllando gli output senza dover riaddestrare i modelli. Tuttavia, l'accuratezza della funzione di valore è cruciale per il decoding guidato da valori, poiché imprecisioni possono portare a decisioni subottimali e a prestazioni degradate. I metodi esistenti faticano a stimare accuratamente la funzione di valore ottimale, risultando in un controllo meno efficace. Proponiamo l'ottimizzazione iterativa della funzione di valore, un nuovo framework che affronta queste limitazioni attraverso due componenti chiave: la stima del valore Monte Carlo, che riduce la varianza di stima esplorando traiettorie diverse, e l'ottimizzazione iterativa on-policy, che migliora progressivamente la stima del valore raccogliendo traiettorie da politiche guidate da valori. Esperimenti estesi su riassunto di testi, dialoghi multi-turn e seguimento di istruzioni dimostrano l'efficacia degli approcci di decoding guidato da valori nell'allineare i modelli linguistici. Questi approcci non solo raggiungono l'allineamento, ma riducono significativamente i costi computazionali sfruttando un'ottimizzazione della funzione di valore basata su principi per un controllo efficiente ed efficace.
English
While Reinforcement Learning from Human Feedback (RLHF) has become the predominant method for controlling language model outputs, it suffers from high computational costs and training instability. Guided decoding, especially value-guided methods, offers a cost-effective alternative by controlling outputs without re-training models. However, the accuracy of the value function is crucial for value-guided decoding, as inaccuracies can lead to suboptimal decision-making and degraded performance. Existing methods struggle with accurately estimating the optimal value function, leading to less effective control. We propose Iterative Value Function Optimization, a novel framework that addresses these limitations through two key components: Monte Carlo Value Estimation, which reduces estimation variance by exploring diverse trajectories, and Iterative On-Policy Optimization, which progressively improves value estimation through collecting trajectories from value-guided policies. Extensive experiments on text summarization, multi-turn dialogue, and instruction following demonstrate the effectiveness of value-guided decoding approaches in aligning language models. These approaches not only achieve alignment but also significantly reduce computational costs by leveraging principled value function optimization for efficient and effective control.

Summary

AI-Generated Summary

PDF152March 5, 2025